execve系统调用及示例

发表于2025-08-09由麦芽爸

好的，我们继续按照您的列表顺序，介绍下一个函数是 execve。

1. 函数介绍

execve 是 Linux 系统编程中一组被称为 exec 函数族的核心成员之一。它的功能是用一个新的程序镜像（program image）

你可以把 execve 想象成彻底的身份转变：

你是一个人（当前运行的进程）。
你决定彻底改变自己，变成另一个人（一个全新的程序）。
你喝下了一瓶神奇药水（调用 execve）。
瞬间，你的外表、记忆、技能、思维方式全部变成了那个人的（新的程序代码、数据、堆栈）。
你不再是原来的你，而是完全变成了新程序的实例。
你的身份（PID）可能保持不变，但你的“灵魂”（程序代码）已经彻底替换。

execve（以及整个 exec 函数族）是实现程序执行的根本机制。当你在 shell 中输入命令（如 ls, grep, gcc）并按回车时，shell 实际上是通过 fork 创建一个子进程，然后在子进程中调用 execve 来运行你指定的程序。

2. 函数原型

#include <unistd.h> // 必需

int execve(const char *pathname, char *const argv[], char *const envp[]);

3. 功能

替换进程镜像: 用由 pathname 指定的新程序的镜像完全替换调用 execve 的当前进程的镜像。
加载新程序: 内核会加载 pathname 指定的可执行文件。
初始化新程序: 内核会为新程序分配内存，将程序代码和数据加载到内存中，初始化堆栈，并设置程序计数器（PC）指向程序的入口点（通常是 main 函数）。
传递参数和环境: 将 argv 指定的命令行参数和 envp 指定的环境变量传递给新程序。
开始执行: 从新程序的入口点开始执行新程序。

4. 参数

const char *pathname: 这是一个指向以空字符结尾的字符串的指针，该字符串包含了要执行的新程序的路径名。
- 这个路径名必须指向一个有效的、可执行的文件。
- 它可以是绝对路径（如 /bin/ls）或相对路径（如 ./my_program）。
char *const argv[]: 这是一个指针数组，数组中的每个元素都是一个指向以空字符结尾的字符串的指针。这些字符串构成了传递给新程序的命令行参数。
- 惯例: argv[0] 通常是程序的名字（或调用它的名字）。
- 结尾: 数组的最后一个元素必须是 NULL，以标记参数列表的结束。
- 例如：char *args[] = { "ls", "-l", "/home", NULL };
char *const envp[]: 这也是一个指针数组，数组中的每个元素都是一个指向以空字符结尾的字符串的指针。这些字符串定义了新程序的环境变量。
- 格式: 每个字符串的格式通常是 NAME=VALUE。
- 结尾: 数组的最后一个元素必须是 NULL，以标记环境变量列表的结束。
- 例如：char *env_vars[] = { "HOME=/home/user", "PATH=/usr/bin:/bin", NULL };
- 获取当前环境: 在 C 程序中，可以通过全局变量 extern char **environ; 来访问当前进程的环境变量列表。如果你想让新程序继承当前进程的所有环境变量，可以将 environ 作为 envp 参数传递。

5. 返回值

成功时: execve 永远不会返回。如果调用成功，当前进程的镜像就被新程序完全替代，执行从新程序的入口点开始。
失败时: 如果 execve 调用失败（例如，文件不存在、权限不足、文件不是有效的可执行格式等），它会返回 -1，并设置全局变量 errno 来指示具体的错误原因（例如 EACCES 权限不足，ENOENT 文件不存在，EINVAL 文件格式无效等）。

关键理解点: execve 的成功调用是**“不归之路”**。一旦成功，调用 execve 的代码就不再存在了。

6. 相似函数，或关联函数

execve 是 exec 函数族中最底层、最通用的函数。其他 exec 函数都是基于 execve 或与其紧密相关的变体：

execl: int execl(const char *path, const char *arg, ..., (char *)NULL);
- 参数以列表（list）形式传递，而不是数组。
- 最后一个参数必须是 (char *)NULL。
- 使用当前进程的 environ 作为环境。
execlp: int execlp(const char *file, const char *arg, ..., (char *)NULL);
- 与 execl 类似，但会在 PATH 环境变量指定的目录中搜索可执行文件。
execle: int execle(const char *path, const char *arg, ..., (char *)NULL, char *const envp[]);
- 与 execl 类似，但允许指定自定义的环境变量数组 envp。
execv: int execv(const char *path, char *const argv[]);
- 参数以数组（vector）形式传递。
- 使用当前进程的 environ 作为环境。
execvp: int execvp(const char *file, char *const argv[]);
- 与 execv 类似，但会在 PATH 环境变量指定的目录中搜索可执行文件。
execvpe: int execvpe(const char *file, char *const argv[], char *const envp[]); (GNU 扩展)
- 与 execvp 类似，但允许指定自定义的环境变量数组 envp。

7. 示例代码

示例 1：使用 `execve` 执行 `/bin/ls`

这个例子演示了如何使用最底层的 execve 函数来执行 /bin/ls -l /tmp 命令。

// execve_ls.c
#include <unistd.h> // execve
#include <stdio.h>  // perror, printf
#include <stdlib.h> // exit

// 全局变量 environ，指向当前进程的环境变量数组
extern char **environ;

int main() {
    // 1. 定义要执行的程序路径
    char *pathname = "/bin/ls";

    // 2. 定义命令行参数数组 (argv)
    // 注意: argv[0] 通常是程序名，数组必须以 NULL 结尾
    char *argv[] = { "ls", "-l", "/tmp", NULL };

    // 3. 定义环境变量数组 (envp)
    // 为了简化，我们让新程序继承当前进程的所有环境变量
    // 通过传递全局变量 environ
    char **envp = environ; // 或者可以构造一个自定义的 envp 数组

    printf("About to execute: %s %s %s\n", argv[0], argv[1], argv[2]);

    // --- 关键: 调用 execve ---
    // 如果成功，execve 永远不会返回
    execve(pathname, argv, envp);

    // --- 如果代码执行到这里，说明 execve 失败了 ---
    perror("execve failed");
    // 打印错误信息后，程序继续执行下面的代码

    printf("This line will only be printed if execve fails.\n");
    exit(EXIT_FAILURE); // 因此，如果 execve 失败，应该显式退出
}

代码解释:

定义要执行的程序的完整路径 pathname ("/bin/ls")。
定义命令行参数数组 argv。它是一个 char * 数组。
- argv[0] 设置为 "ls"（程序名）。
- argv[1] 设置为 "-l"（第一个参数）。
- argv[2] 设置为 "/tmp"（第二个参数）。
- 关键: 数组的最后一个元素必须是 NULL，以标记参数列表结束。
定义环境变量数组 envp。这里为了简化，直接使用了全局变量 environ，它指向当前进程的环境变量列表，从而使新程序继承所有环境变量。
调用 execve(pathname, argv, envp)。
关键: 如果 execve 成功，它会用 ls 程序替换当前进程，ls 程序开始执行，并且永远不会返回到 execve 之后的代码。
关键: 如果 execve 失败（例如，/bin/ls 文件不存在或不可执行），它会返回 -1，并设置 errno。
因此，execve 之后的代码只有在失败时才会执行。这里打印错误信息并调用 exit(EXIT_FAILURE) 退出程序。

示例 2：使用 `execve` 执行自定义程序并传递自定义环境变量

这个例子演示了如何执行一个自定义程序，并向其传递一组自定义的环境变量。

// execve_custom.c
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>

// 假设你有一个简单的 C 程序 my_program.c 如下，并已编译为 my_program：
/*
// my_program.c
#include <stdio.h>
#include <stdlib.h> // getenv

int main(int argc, char *argv[], char *envp[]) {
    printf("--- My Custom Program Started ---\n");
    printf("Arguments received (argc=%d):\n", argc);
    for (int i = 0; i < argc; ++i) {
        printf("  argv[%d]: %s\n", i, argv[i]);
    }

    // 打印特定的环境变量
    char *my_env = getenv("MY_CUSTOM_ENV");
    char *lang_env = getenv("LANG");
    printf("\nEnvironment variables:\n");
    printf("  MY_CUSTOM_ENV: %s\n", my_env ? my_env : "(not set)");
    printf("  LANG: %s\n", lang_env ? lang_env : "(not set)");

    printf("--- My Custom Program Finished ---\n");
    return 42;
}
*/

int main() {
    char *pathname = "./my_program"; // 假设 my_program 在当前目录

    // 1. 定义命令行参数
    char *argv[] = { "my_program_alias", "arg1", "arg2 with spaces", NULL };

    // 2. 定义自定义环境变量
    // 注意：数组必须以 NULL 结尾
    char *envp[] = {
        "MY_CUSTOM_ENV=Hello_From_Execve",
        "LANG=C",
        "PATH=/usr/local/bin:/usr/bin:/bin", // 覆盖 PATH
        NULL
    };

    printf("Parent process preparing to execve '%s' with custom environment.\n", pathname);

    // --- 关键: 调用 execve 并传递自定义环境 ---
    execve(pathname, argv, envp);

    // --- 如果执行到这里，说明 execve 失败 ---
    perror("execve failed");
    printf("Failed to execute '%s'. Make sure it exists and is executable.\n", pathname);
    exit(EXIT_FAILURE);
}

如何测试:

首先，创建并编译 my_program.c：# 创建 my_program.c (内容如上注释所示) gcc -o my_program my_program.c chmod +x my_program # 确保可执行
编译并运行 execve_custom.c：gcc -o execve_custom execve_custom.c ./execve_custom

代码解释:

定义要执行的程序路径 pathname ("./my_program")。
定义命令行参数 argv，包括一个别名和两个参数。
关键: 定义一个自定义的环境变量数组 envp。
- 它包含三个环境变量：MY_CUSTOM_ENV, LANG, PATH。
- 重要: 数组以 NULL 结尾。
调用 execve(pathname, argv, envp)。
如果成功，my_program 将被执行，并接收 argv 和 envp 中定义的参数和环境变量。
my_program 会打印接收到的参数和特定的环境变量值，证明 execve 正确传递了它们。
my_program 执行完毕后（返回 42），整个进程（包括 execve_custom）就结束了。

示例 3：`fork` + `execve` 经典范式

这个例子演示了 Unix/Linux 系统编程中最经典、最常用的模式：fork 创建子进程，然后在子进程中调用 execve 执行新程序。

// fork_execve.c
#include <sys/socket.h> // fork, wait
#include <sys/wait.h>   // wait
#include <unistd.h>     // execve, fork
#include <stdio.h>      // perror, printf
#include <stdlib.h>     // exit

extern char **environ;

int main() {
    pid_t pid;
    char *pathname = "/bin/date"; // 执行 date 命令
    char *argv[] = { "date", "+%Y-%m-%d %H:%M:%S", NULL };
    char **envp = environ;

    printf("Parent process (PID: %d) is about to fork.\n", getpid());

    // 1. 创建子进程
    pid = fork();

    if (pid == -1) {
        perror("fork failed");
        exit(EXIT_FAILURE);

    } else if (pid == 0) {
        // --- 子进程 ---
        printf("Child process (PID: %d) created.\n", getpid());

        // 2. 在子进程中调用 execve 执行新程序
        printf("Child (PID: %d) is about to execve '%s'.\n", getpid(), pathname);
        execve(pathname, argv, envp);

        // --- 如果代码执行到这里，说明 execve 失败 ---
        perror("execve failed in child");
        printf("Child process (PID: %d) exiting due to execve failure.\n", getpid());
        // 子进程失败时应使用 _exit，而不是 exit
        _exit(EXIT_FAILURE);

    } else {
        // --- 父进程 ---
        printf("Parent process (PID: %d) created child (PID: %d).\n", getpid(), pid);

        // 3. 父进程等待子进程结束
        int status;
        printf("Parent (PID: %d) is waiting for child (PID: %d) to finish...\n", getpid(), pid);

        if (waitpid(pid, &status, 0) == -1) {
            perror("waitpid failed");
            exit(EXIT_FAILURE);
        }

        // 4. 检查子进程的退出状态
        if (WIFEXITED(status)) {
            int exit_code = WEXITSTATUS(status);
            printf("Parent: Child (PID: %d) exited normally with status %d.\n", pid, exit_code);
        } else if (WIFSIGNALED(status)) {
            int sig = WTERMSIG(status);
            printf("Parent: Child (PID: %d) was terminated by signal %d.\n", pid, sig);
        } else {
            printf("Parent: Child (PID: %d) did not exit normally.\n", pid);
        }

        printf("Parent process (PID: %d) finished.\n", getpid());
    }

    return 0;
}

代码解释:

定义要执行的程序路径 (/bin/date) 和参数 (date +%Y-%m-%d %H:%M:%S)。
调用 fork() 创建子进程。
在子进程中 (pid == 0):
- 调用 execve(pathname, argv, envp) 执行 date 命令。
- 如果 execve 成功，子进程从此处消失，date 命令开始执行。
- 如果 execve 失败，打印错误信息并调用 _exit(EXIT_FAILURE) 退出子进程。强调: 在 fork 的子进程中，失败时应使用 _exit 而非 exit。
在父进程中 (pid > 0):
- 打印信息。
- 调用 waitpid(pid, &status, 0) 等待特定的子进程 (pid) 结束。
- waitpid 返回后，检查子进程的退出状态 status。
  - WIFEXITED(status): 检查子进程是否正常退出（通过 exit 或 return）。
  - WEXITSTATUS(status): 获取子进程的退出码。
  - WIFSIGNALED(status): 检查子进程是否被信号终止。
  - WTERMSIG(status): 获取终止子进程的信号编号。
- 根据退出状态打印相应信息。
- 父进程结束。

重要提示与注意事项:

永不返回: execve 成功时永远不会返回。这是其最根本的特性。
失败处理: execve 失败时返回 -1。必须检查返回值并处理错误，因为程序会继续执行 execve 之后的代码。
_exit vs exit: 在 fork 之后的子进程中，如果 execve 失败并需要退出，应调用 _exit() 而不是 exit()。因为 exit() 会执行一些清理工作（如调用 atexit 注册的函数、刷新 stdio 缓冲区），这在子进程中可能导致意外行为（例如，缓冲区被刷新两次）。
参数和环境数组: argv 和 envp 数组必须以 NULL 指针结尾。忘记 NULL 会导致未定义行为。
argv[0]: 按惯例，argv[0] 应该是程序的名字。虽然可以是任意字符串，但很多程序会使用它来确定自己的行为。
环境变量: envp 数组定义了新程序的完整环境。它不会自动继承父进程的环境，除非你显式地传递 environ。
PATH 搜索: execve 不会在 PATH 环境变量中搜索可执行文件。它要求 pathname 是一个完整的路径。如果需要 PATH 搜索功能，应使用 execvp 或 execvpe。
权限: 调用进程必须对 pathname 指定的文件具有执行权限。
文件描述符: execve 不会关闭当前进程中打开的文件描述符（除非它们设置了 FD_CLOEXEC 标志）。新程序会继承这些文件描述符。
exec 函数族选择:
- 需要最精确控制（指定完整路径、自定义环境）：使用 execve。
- 需要 PATH 搜索：使用 execvp 或 execvpe。
- 参数较少且希望列表形式：使用 execl 或 execlp。
- 一般推荐：execv 或 execvp，因为它们使用数组形式，更灵活且不易出错。

总结:

execve 是 Linux 系统中执行新程序的核心机制。它通过完全替换当前进程的内存镜像来启动一个新的程序。理解其参数（路径、参数数组、环境数组）和永不返回的特性对于掌握进程执行和 Unix/Linux 编程范式至关重要。它通常与 fork 结合使用，形成创建并运行新进程的经典模式。虽然有更高级的 exec 函数变体，但 execve 是它们的基础。

发表在 linux文章 | 留下评论

宏定义与预处理技巧

1. 条件编译与平台检测

// 平台检测
#if defined(_WIN32) || defined(_WIN64)
    #define PLATFORM_WINDOWS
#elif defined(__linux__)
    #define PLATFORM_LINUX
#elif defined(__APPLE__)
    #define PLATFORM_MACOS
#endif

// 编译器检测
#if defined(__GNUC__)
    #define COMPILER_GCC
#elif defined(_MSC_VER)
    #define COMPILER_MSVC
#endif

// 版本检测
#if __STDC_VERSION__ >= 201112L
    #define C11_SUPPORTED
#endif

2. 强大的宏技巧

// 字符串化和连接
#define STRINGIFY(x) #x
#define TOSTRING(x) STRINGIFY(x)
#define CONCAT(a, b) a##b

// 获取数组长度
#define ARRAY_SIZE(arr) (sizeof(arr) / sizeof((arr)[0]))

// 容器of宏（从成员指针获取容器指针）
#define container_of(ptr, type, member) ({          \
    void *__mptr = (void *)(ptr);                    \
    ((type *)(__mptr - offsetof(type, member))); })

// 最大最小值
#define MAX(a, b) ((a) > (b) ? (a) : (b))
#define MIN(a, b) ((a) < (b) ? (a) : (b))

// 交换变量（不使用临时变量）
#define SWAP(a, b) do { typeof(a) temp = a; a = b; b = temp; } while(0)

// 编译时断言
#define STATIC_ASSERT(condition, message) \
    typedef char static_assertion_##message[(condition) ? 1 : -1]

// 可变参数宏
#define DEBUG_PRINT(fmt, ...) \
    fprintf(stderr, "[DEBUG] %s:%d: " fmt "\n", __FILE__, __LINE__, ##__VA_ARGS__)

3. 现代C语言特性

// C11泛型选择
#define generic_max(a, b) _Generic((a), \
    int: max_int, \
    float: max_float, \
    double: max_double \
)(a, b)

// 静态断言（C11）
_Static_assert(sizeof(int) >= 4, "int must be at least 4 bytes");

// 线程局部存储（C11）
_Thread_local int thread_var;

内存管理高级技巧

1. 内存池设计

typedef struct {
    void *memory;
    size_t size;
    size_t used;
    size_t block_size;
} memory_pool_t;

memory_pool_t* create_pool(size_t size, size_t block_size) {
    memory_pool_t *pool = malloc(sizeof(memory_pool_t));
    pool->memory = malloc(size);
    pool->size = size;
    pool->used = 0;
    pool->block_size = block_size;
    return pool;
}

void* pool_alloc(memory_pool_t *pool, size_t size) {
    if (pool->used + size > pool->size) return NULL;
    void *ptr = (char*)pool->memory + pool->used;
    pool->used += size;
    return ptr;
}

2. 智能指针模拟

typedef struct {
    void *ptr;
    void (*deleter)(void*);
    int *ref_count;
} smart_ptr_t;

smart_ptr_t make_smart_ptr(void *ptr, void (*deleter)(void*)) {
    smart_ptr_t sp = {ptr, deleter, malloc(sizeof(int))};
    *sp.ref_count = 1;
    return sp;
}

smart_ptr_t smart_ptr_copy(smart_ptr_t sp) {
    ++(*sp.ref_count);
    return sp;
}

void smart_ptr_free(smart_ptr_t *sp) {
    if (--(*sp->ref_count) == 0) {
        sp->deleter(sp->ptr);
        free(sp->ref_count);
    }
}

3. 内存对齐

// C11对齐
_Alignas(16) char aligned_buffer[256];

// 手动对齐
#define ALIGN_UP(x, align) (((x) + (align) - 1) & ~((align) - 1))
#define IS_ALIGNED(x, align) (((x) & ((align) - 1)) == 0)

void* aligned_malloc(size_t size, size_t alignment) {
    void *ptr = malloc(size + alignment - 1 + sizeof(void*));
    if (!ptr) return NULL;
    
    void **aligned_ptr = (void**)(((uintptr_t)ptr + sizeof(void*) + alignment - 1) & ~(alignment - 1));
    aligned_ptr[-1] = ptr;
    return aligned_ptr;
}

函数指针与回调机制

1. 面向对象风格编程

// 虚函数表模拟
typedef struct {
    void (*destroy)(void *self);
    void (*print)(void *self);
    int (*compare)(void *self, void *other);
} vtable_t;

typedef struct {
    vtable_t *vtable;
    // 具体数据
} object_t;

// 多态调用
#define CALL_METHOD(obj, method, ...) \
    ((obj)->vtable->method((obj), ##__VA_ARGS__))

2. 状态机实现

typedef enum {
    STATE_IDLE,
    STATE_RUNNING,
    STATE_PAUSED,
    STATE_STOPPED
} state_t;

typedef struct {
    state_t current_state;
    int (*handlers[4])(void *context, int event);
} state_machine_t;

int handle_idle(void *context, int event) {
    switch (event) {
        case EVENT_START:
            return STATE_RUNNING;
        default:
            return STATE_IDLE;
    }
}

3. 插件系统设计

typedef struct {
    const char *name;
    int version;
    int (*init)(void);
    void (*cleanup)(void);
    void* (*create_instance)(void);
} plugin_interface_t;

// 动态加载插件
#ifdef _WIN32
    #include <windows.h>
    #define LOAD_PLUGIN(name) LoadLibrary(name)
    #define GET_SYMBOL(handle, name) GetProcAddress(handle, name)
#else
    #include <dlfcn.h>
    #define LOAD_PLUGIN(name) dlopen(name, RTLD_LAZY)
    #define GET_SYMBOL(handle, name) dymbol(handle, name)
#endif

数据结构设计

1. 链表实现

typedef struct list_node {
    void *data;
    struct list_node *next;
    struct list_node *prev;
} list_node_t;

typedef struct {
    list_node_t head;
    size_t size;
    void (*destructor)(void*);
} list_t;

// 双向链表操作
void list_insert_after(list_t *list, list_node_t *node, void *data) {
    list_node_t *new_node = malloc(sizeof(list_node_t));
    new_node->data = data;
    new_node->next = node->next;
    new_node->prev = node;
    
    if (node->next) node->next->prev = new_node;
    node->next = new_node;
    list->size++;
}

2. 哈希表实现

typedef struct hash_entry {
    char *key;
    void *value;
    struct hash_entry *next;
} hash_entry_t;

typedef struct {
    hash_entry_t **buckets;
    size_t bucket_count;
    size_t size;
    unsigned int (*hash_func)(const char*);
} hash_table_t;

unsigned int djb2_hash(const char *str) {
    unsigned int hash = 5381;
    int c;
    while ((c = *str++)) hash = ((hash << 5) + hash) + c;
    return hash;
}

3. 环形缓冲区

typedef struct {
    char *buffer;
    size_t size;
    size_t read_pos;
    size_t write_pos;
    int full;
} ring_buffer_t;

int ring_buffer_write(ring_buffer_t *rb, const char *data, size_t len) {
    size_t available = rb->size - ring_buffer_size(rb);
    if (len > available) return -1;
    
    for (size_t i = 0; i < len; i++) {
        rb->buffer[rb->write_pos] = data[i];
        rb->write_pos = (rb->write_pos + 1) % rb->size;
        if (rb->write_pos == rb->read_pos) rb->full = 1;
    }
    return len;
}

并发与多线程

1. 线程安全的数据结构

#include <pthread.h>

typedef struct {
    int value;
    pthread_mutex_t mutex;
    pthread_cond_t cond;
} thread_safe_counter_t;

void counter_increment(thread_safe_counter_t *counter) {
    pthread_mutex_lock(&counter->mutex);
    counter->value++;
    pthread_cond_signal(&counter->cond);
    pthread_mutex_unlock(&counter->mutex);
}

int counter_wait_for(thread_safe_counter_t *counter, int target) {
    pthread_mutex_lock(&counter->mutex);
    while (counter->value < target) {
        pthread_cond_wait(&counter->cond, &counter->mutex);
    }
    pthread_mutex_unlock(&counter->mutex);
    return counter->value;
}

2. 读写锁实现

typedef struct {
    pthread_mutex_t mutex;
    pthread_cond_t read_cond;
    pthread_cond_t write_cond;
    int readers;
    int writers;
    int waiting_writers;
} rwlock_t;

void rwlock_rdlock(rwlock_t *rwlock) {
    pthread_mutex_lock(&rwlock->mutex);
    while (rwlock->writers > 0 || rwlock->waiting_writers > 0) {
        pthread_cond_wait(&rwlock->read_cond, &rwlock->mutex);
    }
    rwlock->readers++;
    pthread_mutex_unlock(&rwlock->mutex);
}

3. 无锁编程

#include <stdatomic.h>

typedef struct {
    atomic_int value;
} atomic_counter_t;

void atomic_counter_increment(atomic_counter_t *counter) {
    atomic_fetch_add(&counter->value, 1);
}

int atomic_counter_get(atomic_counter_t *counter) {
    return atomic_load(&counter->value);
}

错误处理与异常机制

1. 错误码系统

typedef enum {
    ERROR_SUCCESS = 0,
    ERROR_INVALID_PARAM = -1,
    ERROR_OUT_OF_MEMORY = -2,
    ERROR_FILE_NOT_FOUND = -3,
    ERROR_PERMISSION_DENIED = -4
} error_code_t;

#define RETURN_ON_ERROR(expr) do { \
    error_code_t err = (expr); \
    if (err != ERROR_SUCCESS) return err; \
} while(0)

// 带上下文的错误处理
typedef struct {
    error_code_t code;
    const char *message;
    const char *file;
    int line;
} error_context_t;

2. 异常模拟机制

#include <setjmp.h>

typedef struct {
    jmp_buf jump_buffer;
    int error_code;
    const char *error_message;
} exception_context_t;

static __thread exception_context_t *current_exception = NULL;

#define TRY \
    do { \
        exception_context_t __exception_ctx; \
        __exception_ctx.error_code = 0; \
        if (setjmp(__exception_ctx.jump_buffer) == 0) { \
            current_exception = &__exception_ctx;

#define CATCH(error_var) \
        } else { \
            error_var = current_exception->error_code;

#define END_TRY \
        } \
        current_exception = NULL; \
    } while(0);

#define THROW(code, message) \
    do { \
        if (current_exception) { \
            current_exception->error_code = code; \
            current_exception->error_message = message; \
            longjmp(current_exception->jump_buffer, 1); \
        } \
    } while(0)

3. 资源管理RAII

typedef struct {
    void *resource;
    void (*cleanup)(void*);
} raii_guard_t;

#define RAII_VAR(type, name, init, cleanup_func) \
    type name = init; \
    raii_guard_t __guard_##name = {&name, (void(*)(void*))cleanup_func}; \
    __attribute__((cleanup(raii_cleanup))) raii_guard_t *__raii_##name = &__guard_##name;

static void raii_cleanup(raii_guard_t **guard) {
    if ((*guard)->resource && (*guard)->cleanup) {
        (*guard)->cleanup((*guard)->resource);
    }
}

性能优化技巧

1. 缓存友好的数据结构

// 结构体打包优化
struct __attribute__((packed)) packed_struct {
    char a;
    int b;
    short c;
};

// 缓存行对齐
#define CACHE_LINE_SIZE 64
struct __attribute__((aligned(CACHE_LINE_SIZE))) cache_aligned_struct {
    int data[16];
};

2. 分支预测优化

// 静态分支预测
#define likely(x) __builtin_expect(!!(x), 1)
#define unlikely(x) __builtin_expect(!!(x), 0)

void optimized_function(int *array, size_t size) {
    if (unlikely(size == 0)) return;
    
    for (size_t i = 0; likely(i < size); i++) {
        process_element(array[i]);
    }
}

3. 内联汇编优化

// 获取时间戳计数器
static inline uint64_t rdtsc(void) {
    uint32_t lo, hi;
    __asm__ __volatile__("rdtsc" : "=a" (lo), "=d" (hi));
    return ((uint64_t)hi << 32) | lo;
}

// 内存屏障
#define MEMORY_BARRIER() __asm__ __volatile__("" ::: "memory")

4. SIMD优化

#ifdef __SSE2__
#include <emmintrin.h>

void vector_add(float *a, float *b, float *result, size_t n) {
    size_t i = 0;
    for (; i + 4 <= n; i += 4) {
        __m128 va = _mm_load_ps(&a[i]);
        __m128 vb = _mm_load_ps(&b[i]);
        __m128 vr = _mm_add_ps(va, vb);
        _mm_store_ps(&result[i], vr);
    }
    // 处理剩余元素
    for (; i < n; i++) {
        result[i] = a[i] + b[i];
    }
}
#endif

调试与测试技巧

1. 调试宏

#ifdef DEBUG
    #define DBG_PRINT(fmt, ...) \
        fprintf(stderr, "[DEBUG] %s:%d: " fmt "\n", __FILE__, __LINE__, ##__VA_ARGS__)
    #define ASSERT(condition) \
        do { \
            if (!(condition)) { \
                fprintf(stderr, "Assertion failed: %s at %s:%d\n", \
                        #condition, __FILE__, __LINE__); \
                abort(); \
            } \
        } while(0)
#else
    #define DBG_PRINT(fmt, ...) do {} while(0)
    #define ASSERT(condition) do {} while(0)
#endif

// 性能计时
#define TIME_IT(code, result_var) \
    do { \
        clock_t start = clock(); \
        code; \
        result_var = ((double)(clock() - start)) / CLOCKS_PER_SEC; \
    } while(0)

2. 单元测试框架

typedef struct {
    const char *name;
    void (*test_func)(void);
    int passed;
    int failed;
} test_case_t;

#define TEST_CASE(name) \
    static void test_##name(void); \
    static test_case_t test_case_##name = {#name, test_##name, 0, 0}; \
    static void test_##name(void)

#define ASSERT_EQ(expected, actual) \
    do { \
        if ((expected) != (actual)) { \
            fprintf(stderr, "Assertion failed: %s != %s at %s:%d\n", \
                    #expected, #actual, __FILE__, __LINE__); \
            current_test->failed++; \
        } else { \
            current_test->passed++; \
        } \
    } while(0)

3. 内存泄漏检测

#ifdef DEBUG_MEMORY
static size_t total_allocated = 0;
static size_t allocation_count = 0;

void* debug_malloc(size_t size, const char *file, int line) {
    void *ptr = malloc(size + sizeof(size_t));
    if (ptr) {
        *(size_t*)ptr = size;
        total_allocated += size;
        allocation_count++;
        printf("ALLOC: %zu bytes at %s:%d\n", size, file, line);
        return (char*)ptr + sizeof(size_t);
    }
    return NULL;
}

void debug_free(void *ptr, const char *file, int line) {
    if (ptr) {
        size_t *size_ptr = (size_t*)((char*)ptr - sizeof(size_t));
        total_allocated -= *size_ptr;
        allocation_count--;
        printf("FREE: %zu bytes at %s:%d\n", *size_ptr, file, line);
        free(size_ptr);
    }
}

#define malloc(size) debug_malloc(size, __FILE__, __LINE__)
#define free(ptr) debug_free(ptr, __FILE__, __LINE__)
#endif

跨平台编程

1. 平台抽象层

// 线程抽象
#ifdef _WIN32
    #include <windows.h>
    typedef HANDLE thread_t;
    typedef CRITICAL_SECTION mutex_t;
    #define THREAD_CREATE(thread, func, arg) \
        (thread = CreateThread(NULL, 0, (LPTHREAD_START_ROUTINE)func, arg, 0, NULL))
    #define THREAD_JOIN(thread) WaitForSingleObject(thread, INFINITE)
    #define MUTEX_INIT(mutex) InitializeCriticalSection(mutex)
    #define MUTEX_LOCK(mutex) EnterCriticalSection(mutex)
    #define MUTEX_UNLOCK(mutex) LeaveCriticalSection(mutex)
#else
    #include <pthread.h>
    typedef pthread_t thread_t;
    typedef pthread_mutex_t mutex_t;
    #define THREAD_CREATE(thread, func, arg) pthread_create(&thread, NULL, func, arg)
    #define THREAD_JOIN(thread) pthread_join(thread, NULL)
    #define MUTEX_INIT(mutex) pthread_mutex_init(mutex, NULL)
    #define MUTEX_LOCK(mutex) pthread_mutex_lock(mutex)
    #define MUTEX_UNLOCK(mutex) pthread_mutex_unlock(mutex)
#endif

2. 文件路径处理

#ifdef _WIN32
    #define PATH_SEPARATOR '\\'
    #define PATH_SEPARATOR_STR "\\"
#else
    #define PATH_SEPARATOR '/'
    #define PATH_SEPARATOR_STR "/"
#endif

char* join_path(const char *dir, const char *file) {
    size_t dir_len = strlen(dir);
    size_t file_len = strlen(file);
    char *result = malloc(dir_len + file_len + 2);
    
    strcpy(result, dir);
    if (dir[dir_len - 1] != PATH_SEPARATOR) {
        strcat(result, PATH_SEPARATOR_STR);
    }
    strcat(result, file);
    return result;
}

3. 字节序处理

// 网络字节序转换
#if defined(__BYTE_ORDER__) && __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
    #define IS_BIG_ENDIAN 1
#else
    #define IS_BIG_ENDIAN 0
#endif

static inline uint32_t swap_endian_32(uint32_t val) {
    return ((val & 0x000000FF) << 24) |
           ((val & 0x0000FF00) << 8)  |
           ((val & 0x00FF0000) >> 8)  |
           ((val & 0xFF000000) >> 24);
}

#define hton32(x) (IS_BIG_ENDIAN ? (x) : swap_endian_32(x))
#define ntoh32(x) hton32(x)

安全编程实践

1. 缓冲区溢出防护

// 安全字符串操作
size_t safe_strncpy(char *dest, size_t dest_size, const char *src, size_t count) {
    if (dest_size == 0) return 0;
    
    size_t copy_len = (count < dest_size - 1) ? count : dest_size - 1;
    memcpy(dest, src, copy_len);
    dest[copy_len] = '\0';
    return copy_len;
}

// 格式化字符串安全检查
#define SAFE_PRINTF(buffer, size, format, ...) \
    do { \
        int __result = snprintf(buffer, size, format, ##__VA_ARGS__); \
        if (__result < 0 || (size_t)__result >= size) { \
            /* 处理溢出 */ \
            buffer[size - 1] = '\0'; \
        } \
    } while(0)

2. 输入验证

// 整数溢出检查
static inline int safe_add(int a, int b, int *result) {
    if ((b > 0 && a > INT_MAX - b) || (b < 0 && a < INT_MIN - b)) {
        return -1; // 溢出
    }
    *result = a + b;
    return 0;
}

// 指针验证
#define VALIDATE_PTR(ptr) \
    do { \
        if (!(ptr)) { \
            return ERROR_INVALID_PARAM; \
        } \
    } while(0)

3. 安全随机数

#include <time.h>
#include <stdlib.h>

// 密码学安全随机数（需要平台支持）
#ifdef __linux__
    #include <sys/random.h>
    int secure_random_bytes(void *buf, size_t len) {
        return getrandom(buf, len, 0) == (ssize_t)len ? 0 : -1;
    }
#else
    // 简单的伪随机数生成器
    static unsigned long long rand_state = 1;
    
    void srand64(unsigned long long seed) {
        rand_state = seed;
    }
    
    unsigned long long rand64(void) {
        rand_state = rand_state * 6364136223846793005ULL + 1;
        return rand_state;
    }
#endif

附录：最佳实践总结

编码规范

命名约定：使用清晰的命名，避免缩写
注释风格：使用Doxygen风格注释
错误处理：始终检查返回值
内存管理：遵循RAII原则
线程安全：明确标识线程安全函数

性能优化原则

先测量后优化：使用性能分析工具
算法优先：选择合适的数据结构和算法
避免过早优化：保持代码可读性
缓存友好：考虑数据局部性
编译器优化：合理使用编译器优化选项

安全编码原则

输入验证：永远不要信任外部输入
边界检查：防止缓冲区溢出
最小权限：使用最小必要权限
安全函数：使用安全的字符串函数
代码审查：定期进行安全代码审查

这份指南涵盖了C语言编程中的高级技巧和最佳实践，从基础的宏定义到复杂的并发编程，从性能优化到安全编码，希望能帮助您提升C语言编程水平。

发表在 linux文章 | 留下评论

PACKET_HOST等相关宏定义介绍

核心含义：

PACKET_HOST 是 Linux 内核中定义的一个常量（通常在头文件 <linux/if_packet.h> 中），它表示捕获到的网络数据包的目的地是本机。

详细说明：

1. 适用场景：

当你使用 AF_PACKET / PF_PACKET 套接字（也称为 SOCK_RAW + ETH_P_ALL 或 SOCK_DGRAM）进行原始网络链路层数据包捕获时，会接触到它。

◦ 这种类型的套接字允许你的程序直接接收流经网络接口（网卡）的底层数据包，包括不是发给本机的包（如果你开启了混杂模式）。

2. 来源和作用：

◦当你的原始套接字使用 recvfrom(), recvmsg() 等系统调用接收一个数据包时，除了数据内容本身，你还会收到一个地址结构 struct sockaddr_ll。

◦这个 struct sockaddr_ll 结构体有一个非常重要的成员叫做 sll_pkttype。

sll_pkttype 的值就是由 PACKET_HOST, PACKET_BROADCAST, PACKET_MULTICAST, PACKET_OTHERHOST, PACKET_OUTGOING 等常量表示的。

sll_pkttype = PACKET_HOST 明确告诉你：这个刚刚捕获到的数据包是发往本机操作系统网络协议栈的！也就是说，这个包的目标 MAC 地址是本机网卡的 MAC 地址（或者如果接口支持，是配置给该接口的多个 MAC 地址之一）。

3. 与其他包类型的区别：

PACKET_BROADCAST：广播包 (目标 MAC 地址为 FF:FF:FF:FF:FF:FF)。

PACKET_MULTICAST：多播包 (目标 MAC 地址属于多播地址范围)。

PACKET_OTHERHOST：目的地不是本机的包。在正常模式下，网卡会过滤掉这类包。只有开启了网卡的“混杂模式”(Promiscuous Mode)，你的原始套接字才能接收到这种数据包。例如，捕获同一局域网中其他主机之间的通信就需要它。

◦ PACKET_OUTGOING：表示此包是由本机发送出去的数据包（当套接字设置为捕获所有包 ETH_P_ALL 时可能也会收到本机发出的包）。

关键总结：

• PACKET_HOST 不是配置项，而是捕获包时的一个“标记”或“属性”。

• 它是 struct sockaddr_ll 中 sll_pkttype 字段的一个可能取值。

• 它的值明确表示：“捕获到的这个数据包本来是打算交给本机操作系统协议栈处理的”（例如，一个发送给你电脑 IP 地址的 TCP SYN 包，一个 ICMP echo request 包等）。

• 在编写抓包工具（如 tcpdump、Wireshark 的底层）或自定义网络监控/安全程序时，检查 sll_pkttype 的值（特别是与 PACKET_HOST, PACKET_OTHERHOST 的比较）是理解捕获包流的关键。

通俗比喻：

想象一个繁忙的邮局分拣中心：

• PACKET_HOST: 信件上写着你的名字和地址，是寄给你的。

• PACKET_BROADCAST: 信件上写着“此片区所有居民收”，是广播通知。

• PACKET_MULTICAST: 信件上写着“某兴趣小组成员收”，是多播通知。

• PACKET_OTHERHOST: 信件上写的是别人的名字地址，你本不该看到，但邮局工作人员（在特殊模式下）也让你看了。

在代码中如何识别：
#include <sys/socket.h>
#include <linux/if_packet.h> #include <net/ethernet.h> // 或 netinet/if_ether.h
// … 其他头文件 …

int sock = socket(AF_PACKET, SOCK_RAW, htons(ETH_P_ALL)); // 创建原始套接字
// … 绑定到接口等操作 …

struct sockaddr_ll sll;
socklen_t sll_len = sizeof(sll);
unsigned char buffer[1500]; // 常见 MTU 大小的缓冲区

// 接收数据包
ssize_t packet_size = recvfrom(sock, buffer, sizeof(buffer), 0,
(struct sockaddr*)&sll, &sll_len);

if (packet_size > 0) {
// 检查包的“类型属性” sll_pkttype
switch(sll.sll_pkttype) {
case PACKET_HOST:
printf(“捕获到一个本机接收包!\n”);
// … 处理目的地址是本机的包 …
break;
case PACKET_BROADCAST:
printf(“捕获到一个广播包!\n”);
break;
case PACKET_MULTICAST:
printf(“捕获到一个多播包!\n”);
break;
case PACKET_OTHERHOST:
printf(“捕获到一个目的地是其他主机的包!\n”);
// … 处理目的地址不是本机的包 (混杂模式下捕获) …
break;
default:
printf(“捕获到一个未知类型的包 (%d)\n”, sll.sll_pkttype);
}
}

希望这个详细的中文解释能帮助你清晰理解 PACKET_HOST 的含义和作用！

发表在 linux文章 | 留下评论

creat系统调用及示例

发表于2025-08-08由麦芽爸

creat – 创建文件

函数介绍

creat系统调用用于创建新文件或截断已存在的文件。它是一个简化的文件创建函数，等价于open(path, O_WRONLY|O_CREAT|O_TRUNC, mode)。

函数原型

#include <fcntl.h>
#include <sys/stat.h>
#include <unistd.h>

int creat(const char *pathname, mode_t mode);

功能

创建新文件或清空已存在的文件，返回只写权限的文件描述符。

参数

const char *pathname: 要创建的文件路径名
mode_t mode: 文件权限模式（如0644）

返回值

成功时返回文件描述符（非负整数）
失败时返回-1，并设置errno

特殊限制

文件总是以只写模式打开
如果文件已存在，会被截断为0字节
不支持追加模式等高级选项

相似函数

open(): 更灵活的文件打开函数
mkstemp(): 创建安全的临时文件

示例代码

https://www.calcguide.tech/2025/08/08/creat%e7%b3%bb%e7%bb%9f%e8%b0%83%e7%94%a8%e5%8f%8a%e7%a4%ba%e4%be%8b/#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <errno.h>
#include <string.h>
#include <sys/stat.h>

int main() {
    int fd;
    
    printf("=== Creat函数示例 ===\n");
    
    // 示例1: 基本文件创建
    printf("示例1: 基本文件创建\n");
    fd = creat("test_creat.txt", 0644);
    if (fd == -1) {
        perror("创建文件失败");
    } else {
        printf("成功创建文件，fd=%d\n", fd);
        write(fd, "Hello from creat!", 17);
        close(fd);
    }
    
    // 示例2: 重复创建（会截断原文件）
    printf("示例2: 重复创建（截断原文件）\n");
    fd = creat("test_creat.txt", 0644);
    if (fd != -1) {
        printf("重新创建文件（原内容被清空）\n");
        write(fd, "New content", 11);
        close(fd);
    }
    
    // 示例3: 权限测试
    printf("示例3: 不同权限创建\n");
    int fd1 = creat("file_600.txt", 0600);  // 仅所有者读写
    int fd2 = creat("file_644.txt", 0644);  // 所有者读写，其他用户读
    int fd3 = creat("file_666.txt", 0666);  // 所有用户读写
    
    if (fd1 != -1) {
        printf("创建0600权限文件\n");
        close(fd1);
    }
    if (fd2 != -1) {
        printf("创建0644权限文件\n");
        close(fd2);
    }
    if (fd3 != -1) {
        printf("创建0666权限文件\n");
        close(fd3);
    }
    
    // 清理测试文件
    unlink("test_creat.txt");
    unlink("file_600.txt");
    unlink("file_644.txt");
    unlink("file_666.txt");
    
    return 0;
}

creat系统调用及示例

Linux开源软件路线图

发表在 linux文章 | 留下评论

sysinfo系统调用及示例

发表于2025-08-08由麦芽爸

sysfs 和 sysinfo 函数详解

1. 函数介绍

sysfs

sysfs 是Linux内核提供的虚拟文件系统，用于导出内核对象的信息到用户空间。它以文件和目录的形式呈现系统硬件、驱动程序、设备状态等信息，是现代Linux系统管理和监控的重要接口。

sysinfo

sysinfo 是Linux系统调用，用于获取系统的整体统计信息，包括内存使用情况、系统负载、运行时间等。它提供了一种编程方式来获取系统状态信息。

2. 函数原型

sysfs

#include <sysfs/libsysfs.h>  // 需要安装libsysfs-dev包

// sysfs库函数（非系统调用）
struct sysfs_bus *sysfs_open_bus(const char *name);
struct sysfs_device *sysfs_open_device(const char *bus_name, const char *dev_name);
char *sysfs_get_device_attr(const char *devpath, const char *attr_name);

sysinfo

#include <sys/sysinfo.h>

int sysinfo(struct sysinfo *info);

3. 功能

sysfs

提供内核对象的结构化信息访问
导出硬件设备、驱动程序、总线等信息
支持动态查询设备状态和属性

sysinfo

获取系统内存使用统计
查询系统负载和运行时间
获取进程和用户统计信息

4. 参数

sysfs

*const char name: 总线或设备名称
*const char devpath: 设备路径
*const char attr_name: 属性名称

sysinfo

*struct sysinfo info: 指向sysinfo结构的指针

5. 返回值

sysfs

成功: 返回相应的句柄或字符串
失败: 返回NULL，并设置errno

sysinfo

成功: 返回0
失败: 返回-1，并设置errno

6. 相似函数，或关联函数

sysfs相关：

opendir/readdir: 目录遍历
open/read: 文件读取
/sys/: sysfs挂载点

sysinfo相关：

getloadavg: 获取系统负载平均值
getrusage: 获取资源使用情况
/proc/: procfs文件系统

7. 示例代码

示例1：基础sysinfo使用

#include <sys/sysinfo.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <time.h>

/**
 * 显示系统信息
 */
void show_system_info() {
    struct sysinfo si;
    time_t current_time;
    char time_str[64];
    
    printf("=== 系统信息 ===\n");
    
    // 获取系统信息
    if (sysinfo(&si) == -1) {
        perror("获取系统信息失败");
        return;
    }
    
    // 显示时间信息
    current_time = time(NULL);
    strftime(time_str, sizeof(time_str), "%Y-%m-%d %H:%M:%S", localtime(&current_time));
    printf("当前时间: %s\n", time_str);
    
    // 显示启动时间
    time_t boot_time = current_time - si.uptime;
    strftime(time_str, sizeof(time_str), "%Y-%m-%d %H:%M:%S", localtime(&boot_time));
    printf("系统启动时间: %s\n", time_str);
    printf("系统运行时间: %ld 天 %ld 小时 %ld 分钟\n",
           si.uptime / 86400,
           (si.uptime % 86400) / 3600,
           (si.uptime % 3600) / 60);
    
    // 显示负载信息
    printf("\n系统负载:\n");
    printf("  1分钟平均负载: %.2f\n", (double)si.loads[0] / (1 << SI_LOAD_SHIFT));
    printf("  5分钟平均负载: %.2f\n", (double)si.loads[1] / (1 << SI_LOAD_SHIFT));
    printf("  15分钟平均负载: %.2f\n", (double)si.loads[2] / (1 << SI_LOAD_SHIFT));
    
    // 显示内存信息
    printf("\n内存信息:\n");
    printf("  总内存: %.2f GB\n", si.totalram * si.mem_unit / (1024.0 * 1024.0 * 1024.0));
    printf("  可用内存: %.2f GB\n", si.freeram * si.mem_unit / (1024.0 * 1024.0 * 1024.0));
    printf("  共享内存: %.2f GB\n", si.sharedram * si.mem_unit / (1024.0 * 1024.0 * 1024.0));
    printf("  缓冲区内存: %.2f GB\n", si.bufferram * si.mem_unit / (1024.0 * 1024.0 * 1024.0));
    
    // 显示交换信息
    printf("\n交换信息:\n");
    printf("  总交换空间: %.2f GB\n", si.totalswap * si.mem_unit / (1024.0 * 1024.0 * 1024.0));
    printf("  可用交换空间: %.2f GB\n", si.freeswap * si.mem_unit / (1024.0 * 1024.0 * 1024.0));
    
    // 显示进程信息
    printf("\n进程信息:\n");
    printf("  当前进程数: %d\n", si.procs);
    
    printf("\n");
}

/**
 * 演示基础sysinfo使用方法
 */
int demo_sysinfo_basic() {
    printf("=== 基础sysinfo使用示例 ===\n");
    
    // 显示系统信息
    show_system_info();
    
    // 演示多次查询
    printf("连续查询系统信息:\n");
    for (int i = 0; i < 3; i++) {
        struct sysinfo si;
        
        if (sysinfo(&si) == 0) {
            printf("  第 %d 次查询:\n", i + 1);
            printf("    运行时间: %ld 秒\n", si.uptime);
            printf("    可用内存: %.2f MB\n", 
                   si.freeram * si.mem_unit / (1024.0 * 1024.0));
            printf("    当前进程: %d\n", si.procs);
        } else {
            printf("  第 %d 次查询失败: %s\n", i + 1, strerror(errno));
        }
        
        if (i < 2) sleep(2);  // 间隔查询
    }
    
    return 0;
}

int main() {
    return demo_sysinfo_basic();
}

示例2：内存监控工具

#include <sys/sysinfo.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <time.h>

/**
 * 内存使用统计结构
 */
typedef struct {
    unsigned long total_ram_mb;
    unsigned long free_ram_mb;
    unsigned long used_ram_mb;
    unsigned long shared_ram_mb;
    unsigned long buffer_ram_mb;
    unsigned long total_swap_mb;
    unsigned long free_swap_mb;
    unsigned long used_swap_mb;
    double ram_usage_percent;
    double swap_usage_percent;
} memory_stats_t;

/**
 * 获取内存统计信息
 */
int get_memory_stats(memory_stats_t *stats) {
    struct sysinfo si;
    
    if (sysinfo(&si) == -1) {
        return -1;
    }
    
    // 转换为MB
    unsigned long mem_unit = si.mem_unit ? si.mem_unit : 1;
    
    stats->total_ram_mb = si.totalram * mem_unit / (1024 * 1024);
    stats->free_ram_mb = si.freeram * mem_unit / (1024 * 1024);
    stats->used_ram_mb = stats->total_ram_mb - stats->free_ram_mb;
    stats->shared_ram_mb = si.sharedram * mem_unit / (1024 * 1024);
    stats->buffer_ram_mb = si.bufferram * mem_unit / (1024 * 1024);
    stats->total_swap_mb = si.totalswap * mem_unit / (1024 * 1024);
    stats->free_swap_mb = si.freeswap * mem_unit / (1024 * 1024);
    stats->used_swap_mb = stats->total_swap_mb - stats->free_swap_mb;
    
    // 计算使用率
    stats->ram_usage_percent = stats->total_ram_mb > 0 ? 
        (double)stats->used_ram_mb / stats->total_ram_mb * 100 : 0;
    stats->swap_usage_percent = stats->total_swap_mb > 0 ? 
        (double)stats->used_swap_mb / stats->total_swap_mb * 100 : 0;
    
    return 0;
}

/**
 * 显示内存统计信息
 */
void show_memory_stats(const memory_stats_t *stats) {
    printf("内存统计信息:\n");
    printf("  物理内存:\n");
    printf("    总量: %lu MB\n", stats->total_ram_mb);
    printf("    已用: %lu MB (%.1f%%)\n", stats->used_ram_mb, stats->ram_usage_percent);
    printf("    可用: %lu MB\n", stats->free_ram_mb);
    printf("    共享: %lu MB\n", stats->shared_ram_mb);
    printf("    缓冲: %lu MB\n", stats->buffer_ram_mb);
    
    printf("  交换空间:\n");
    printf("    总量: %lu MB\n", stats->total_swap_mb);
    printf("    已用: %lu MB (%.1f%%)\n", stats->used_swap_mb, stats->swap_usage_percent);
    printf("    可用: %lu MB\n", stats->free_swap_mb);
}

/**
 * 内存监控警报
 */
void check_memory_alerts(const memory_stats_t *stats) {
    printf("\n内存警报检查:\n");
    
    // RAM使用率警报
    if (stats->ram_usage_percent > 90) {
        printf("  ⚠ 警告: RAM使用率过高 (%.1f%%)\n", stats->ram_usage_percent);
    } else if (stats->ram_usage_percent > 80) {
        printf("  ℹ 提示: RAM使用率较高 (%.1f%%)\n", stats->ram_usage_percent);
    } else {
        printf("  ✓ RAM使用率正常 (%.1f%%)\n", stats->ram_usage_percent);
    }
    
    // 交换空间使用率警报
    if (stats->swap_usage_percent > 80) {
        printf("  ⚠ 警告: 交换空间使用率过高 (%.1f%%)\n", stats->swap_usage_percent);
    } else if (stats->swap_usage_percent > 50) {
        printf("  ℹ 提示: 交换空间使用率较高 (%.1f%%)\n", stats->swap_usage_percent);
    } else {
        printf("  ✓ 交换空间使用率正常 (%.1f%%)\n", stats->swap_usage_percent);
    }
    
    // 内存不足警报
    if (stats->free_ram_mb < 100) {
        printf("  ⚠ 警告: 可用内存不足 (%lu MB)\n", stats->free_ram_mb);
    }
}

/**
 * 演示内存监控工具
 */
int demo_memory_monitor() {
    memory_stats_t stats;
    
    printf("=== 内存监控工具演示 ===\n");
    
    // 单次内存统计
    printf("1. 当前内存状态:\n");
    if (get_memory_stats(&stats) == 0) {
        show_memory_stats(&stats);
        check_memory_alerts(&stats);
    } else {
        printf("获取内存统计失败: %s\n", strerror(errno));
        return -1;
    }
    
    // 连续监控演示
    printf("\n2. 连续内存监控演示:\n");
    printf("监控5次，每次间隔3秒:\n");
    
    for (int i = 0; i < 5; i++) {
        if (get_memory_stats(&stats) == 0) {
            time_t now = time(NULL);
            char time_str[32];
            strftime(time_str, sizeof(time_str), "%H:%M:%S", localtime(&now));
            
            printf("[%s] 第 %d 次监控:\n", time_str, i + 1);
            printf("  RAM: %lu/%lu MB (%.1f%%)\n",
                   stats.used_ram_mb, stats.total_ram_mb, stats.ram_usage_percent);
            printf("  Swap: %lu/%lu MB (%.1f%%)\n",
                   stats.used_swap_mb, stats.total_swap_mb, stats.swap_usage_percent);
            
            // 检查警报
            if (stats.ram_usage_percent > 90 || stats.swap_usage_percent > 80) {
                printf("  ⚠ 触发内存警报\n");
            }
        } else {
            printf("第 %d 次监控失败: %s\n", i + 1, strerror(errno));
        }
        
        if (i < 4) sleep(3);
    }
    
    // 内存使用趋势分析
    printf("\n3. 内存使用趋势分析:\n");
    printf("历史数据分析:\n");
    
    unsigned long max_ram_usage = 0;
    unsigned long min_ram_usage = (unsigned long)-1;
    double total_ram_usage = 0;
    int sample_count = 0;
    
    for (int i = 0; i < 5; i++) {
        if (get_memory_stats(&stats) == 0) {
            if (stats.used_ram_mb > max_ram_usage) {
                max_ram_usage = stats.used_ram_mb;
            }
            if (stats.used_ram_mb < min_ram_usage) {
                min_ram_usage = stats.used_ram_mb;
            }
            total_ram_usage += stats.ram_usage_percent;
            sample_count++;
        }
        sleep(1);
    }
    
    if (sample_count > 0) {
        printf("  最大RAM使用: %lu MB\n", max_ram_usage);
        printf("  最小RAM使用: %lu MB\n", min_ram_usage);
        printf("  平均RAM使用率: %.1f%%\n", total_ram_usage / sample_count);
    }
    
    return 0;
}

int main() {
    return demo_memory_monitor();
}

示例3：系统负载监控

#include <sys/sysinfo.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <time.h>

/**
 * 系统负载统计结构
 */
typedef struct {
    double load_avg_1min;
    double load_avg_5min;
    double load_avg_15min;
    unsigned long uptime_seconds;
    unsigned int process_count;
    time_t boot_time;
} system_load_stats_t;

/**
 * 获取系统负载统计
 */
int get_system_load_stats(system_load_stats_t *stats) {
    struct sysinfo si;
    
    if (sysinfo(&si) == -1) {
        return -1;
    }
    
    // 计算负载平均值
    stats->load_avg_1min = (double)si.loads[0] / (1 << SI_LOAD_SHIFT);
    stats->load_avg_5min = (double)si.loads[1] / (1 << SI_LOAD_SHIFT);
    stats->load_avg_15min = (double)si.loads[2] / (1 << SI_LOAD_SHIFT);
    
    // 系统运行时间
    stats->uptime_seconds = si.uptime;
    stats->boot_time = time(NULL) - si.uptime;
    
    // 进程数
    stats->process_count = si.procs;
    
    return 0;
}

/**
 * 显示系统负载统计
 */
void show_system_load_stats(const system_load_stats_t *stats) {
    char boot_time_str[64];
    char current_time_str[64];
    
    strftime(boot_time_str, sizeof(boot_time_str), "%Y-%m-%d %H:%M:%S", 
             localtime(&stats->boot_time));
    
    printf("系统负载统计:\n");
    printf("  系统启动时间: %s\n", boot_time_str);
    
    unsigned long days = stats->uptime_seconds / 86400;
    unsigned long hours = (stats->uptime_seconds % 86400) / 3600;
    unsigned long minutes = (stats->uptime_seconds % 3600) / 60;
    printf("  系统运行时间: %lu 天 %lu 小时 %lu 分钟\n", days, hours, minutes);
    
    printf("  系统负载平均值:\n");
    printf("    1分钟: %.2f\n", stats->load_avg_1min);
    printf("    5分钟: %.2f\n", stats->load_avg_5min);
    printf("    15分钟: %.2f\n", stats->load_avg_15min);
    
    printf("  当前进程数: %u\n", stats->process_count);
}

/**
 * 分析系统负载状态
 */
void analyze_system_load(const system_load_stats_t *stats, int cpu_count) {
    printf("\n系统负载分析:\n");
    
    // 1分钟负载分析
    double load_per_cpu_1min = stats->load_avg_1min / cpu_count;
    if (load_per_cpu_1min > 1.0) {
        printf("  ⚠ 1分钟负载警告: 每CPU负载 %.2f (> 1.0)\n", load_per_cpu_1min);
    } else if (load_per_cpu_1min > 0.7) {
        printf("  ℹ 1分钟负载提示: 每CPU负载 %.2f (较高)\n", load_per_cpu_1min);
    } else {
        printf("  ✓ 1分钟负载正常: 每CPU负载 %.2f\n", load_per_cpu_1min);
    }
    
    // 5分钟负载分析
    double load_per_cpu_5min = stats->load_avg_5min / cpu_count;
    if (load_per_cpu_5min > 1.0) {
        printf("  ⚠ 5分钟负载警告: 每CPU负载 %.2f (> 1.0)\n", load_per_cpu_5min);
    } else if (load_per_cpu_5min > 0.7) {
        printf("  ℹ 5分钟负载提示: 每CPU负载 %.2f (较高)\n", load_per_cpu_5min);
    } else {
        printf("  ✓ 5分钟负载正常: 每CPU负载 %.2f\n", load_per_cpu_5min);
    }
    
    // 15分钟负载分析
    double load_per_cpu_15min = stats->load_avg_15min / cpu_count;
    if (load_per_cpu_15min > 1.0) {
        printf("  ⚠ 15分钟负载警告: 每CPU负载 %.2f (> 1.0)\n", load_per_cpu_15min);
    } else if (load_per_cpu_15min > 0.7) {
        printf("  ℹ 15分钟负载提示: 每CPU负载 %.2f (较高)\n", load_per_cpu_15min);
    } else {
        printf("  ✓ 15分钟负载正常: 每CPU负载 %.2f\n", load_per_cpu_15min);
    }
    
    // 进程数分析
    if (stats->process_count > 1000) {
        printf("  ⚠ 进程数警告: 当前有 %u 个进程\n", stats->process_count);
    } else if (stats->process_count > 500) {
        printf("  ℹ 进程数提示: 当前有 %u 个进程\n", stats->process_count);
    } else {
        printf("  ✓ 进程数正常: 当前有 %u 个进程\n", stats->process_count);
    }
}

/**
 * 演示系统负载监控
 */
int demo_system_load_monitoring() {
    system_load_stats_t stats;
    int cpu_count = sysconf(_SC_NPROCESSORS_ONLN);
    
    printf("=== 系统负载监控演示 ===\n");
    printf("CPU核心数: %d\n", cpu_count);
    
    // 单次负载统计
    printf("\n1. 当前系统负载状态:\n");
    if (get_system_load_stats(&stats) == 0) {
        show_system_load_stats(&stats);
        analyze_system_load(&stats, cpu_count);
    } else {
        printf("获取系统负载统计失败: %s\n", strerror(errno));
        return -1;
    }
    
    // 连续负载监控
    printf("\n2. 连续负载监控演示:\n");
    printf("监控10次，每次间隔2秒:\n");
    
    double max_load_1min = 0, min_load_1min = 999;
    double total_load_1min = 0;
    int sample_count = 0;
    
    for (int i = 0; i < 10; i++) {
        if (get_system_load_stats(&stats) == 0) {
            time_t now = time(NULL);
            char time_str[32];
            strftime(time_str, sizeof(time_str), "%H:%M:%S", localtime(&now));
            
            printf("[%s] 第 %d 次监控:\n", time_str, i + 1);
            printf("  负载: %.2f %.2f %.2f\n", 
                   stats.load_avg_1min, stats.load_avg_5min, stats.load_avg_15min);
            printf("  进程: %u\n", stats.process_count);
            
            // 统计负载数据
            if (stats.load_avg_1min > max_load_1min) {
                max_load_1min = stats.load_avg_1min;
            }
            if (stats.load_avg_1min < min_load_1min) {
                min_load_1min = stats.load_avg_1min;
            }
            total_load_1min += stats.load_avg_1min;
            sample_count++;
        } else {
            printf("第 %d 次监控失败: %s\n", i + 1, strerror(errno));
        }
        
        if (i < 9) sleep(2);
    }
    
    // 负载趋势分析
    printf("\n3. 负载趋势分析:\n");
    if (sample_count > 0) {
        printf("  1分钟负载范围: %.2f - %.2f\n", min_load_1min, max_load_1min);
        printf("  1分钟负载平均: %.2f\n", total_load_1min / sample_count);
        printf("  负载波动幅度: %.2f\n", max_load_1min - min_load_1min);
    }
    
    // 负载等级判断
    printf("\n4. 负载等级判断:\n");
    if (sample_count > 0) {
        double avg_load = total_load_1min / sample_count;
        double load_per_cpu = avg_load / cpu_count;
        
        if (load_per_cpu > 1.5) {
            printf("  💥 系统负载极重: 每CPU平均负载 %.2f\n", load_per_cpu);
        } else if (load_per_cpu > 1.0) {
            printf("  ⚠ 系统负载较重: 每CPU平均负载 %.2f\n", load_per_cpu);
        } else if (load_per_cpu > 0.7) {
            printf("  ℹ 系统负载中等: 每CPU平均负载 %.2f\n", load_per_cpu);
        } else {
            printf("  ✓ 系统负载轻松: 每CPU平均负载 %.2f\n", load_per_cpu);
        }
    }
    
    return 0;
}

int main() {
    return demo_system_load_monitoring();
}

示例4：基础sysfs使用

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <dirent.h>
#include <fcntl.h>

/**
 * 读取sysfs文件内容
 */
int read_sysfs_file(const char *path, char *buffer, size_t buffer_size) {
    int fd;
    ssize_t bytes_read;
    
    fd = open(path, O_RDONLY);
    if (fd == -1) {
        return -1;
    }
    
    bytes_read = read(fd, buffer, buffer_size - 1);
    if (bytes_read == -1) {
        close(fd);
        return -1;
    }
    
    buffer[bytes_read] = '\0';
    
    // 移除末尾的换行符
    if (bytes_read > 0 && buffer[bytes_read - 1] == '\n') {
        buffer[bytes_read - 1] = '\0';
    }
    
    close(fd);
    return 0;
}

/**
 * 显示CPU信息
 */
void show_cpu_info() {
    DIR *dir;
    struct dirent *entry;
    char path[256];
    char buffer[256];
    
    printf("=== CPU信息 ===\n");
    
    // 读取CPU基本信息
    if (read_sysfs_file("/sys/devices/system/cpu/online", buffer, sizeof(buffer)) == 0) {
        printf("在线CPU: %s\n", buffer);
    }
    
    if (read_sysfs_file("/sys/devices/system/cpu/offline", buffer, sizeof(buffer)) == 0) {
        if (strlen(buffer) > 0) {
            printf("离线CPU: %s\n", buffer);
        }
    }
    
    // 遍历CPU目录
    dir = opendir("/sys/devices/system/cpu");
    if (dir) {
        int cpu_count = 0;
        while ((entry = readdir(dir)) != NULL) {
            if (strncmp(entry->d_name, "cpu", 3) == 0 && 
                entry->d_name[3] >= '0' && entry->d_name[3] <= '9') {
                cpu_count++;
                
                // 读取CPU频率信息
                snprintf(path, sizeof(path), 
                        "/sys/devices/system/cpu/%s/cpufreq/scaling_cur_freq", 
                        entry->d_name);
                if (read_sysfs_file(path, buffer, sizeof(buffer)) == 0) {
                    long freq_khz = atol(buffer);
                    printf("CPU %s 当前频率: %.2f MHz\n", 
                           entry->d_name, freq_khz / 1000.0);
                }
                
                // 读取CPU在线状态
                snprintf(path, sizeof(path), 
                        "/sys/devices/system/cpu/%s/online", 
                        entry->d_name);
                if (read_sysfs_file(path, buffer, sizeof(buffer)) == 0) {
                    printf("CPU %s 在线状态: %s\n", 
                           entry->d_name, atoi(buffer) ? "在线" : "离线");
                }
            }
        }
        printf("CPU总数: %d\n", cpu_count);
        closedir(dir);
    }
    
    printf("\n");
}

/**
 * 显示内存信息
 */
void show_memory_info() {
    char buffer[256];
    
    printf("=== 内存信息 ===\n");
    
    // 读取内存块信息
    if (read_sysfs_file("/sys/devices/system/memory/block_size_bytes", buffer, sizeof(buffer)) == 0) {
        unsigned long block_size = strtoul(buffer, NULL, 16);
        printf("内存块大小: %lu 字节 (%.2f MB)\n", block_size, block_size / (1024.0 * 1024.0));
    }
    
    // 遍历内存块
    DIR *dir = opendir("/sys/devices/system/memory");
    if (dir) {
        struct dirent *entry;
        int online_count = 0, total_count = 0;
        
        while ((entry = readdir(dir)) != NULL) {
            if (strncmp(entry->d_name, "memory", 6) == 0) {
                total_count++;
                char path[256];
                snprintf(path, sizeof(path), 
                        "/sys/devices/system/memory/%s/state", entry->d_name);
                
                if (read_sysfs_file(path, buffer, sizeof(buffer)) == 0) {
                    if (strcmp(buffer, "online") == 0) {
                        online_count++;
                    }
                }
            }
        }
        
        printf("内存块总数: %d\n", total_count);
        printf("在线内存块: %d\n", online_count);
        printf("离线内存块: %d\n", total_count - online_count);
        
        closedir(dir);
    }
    
    printf("\n");
}

/**
 * 显示块设备信息
 */
void show_block_devices() {
    printf("=== 块设备信息 ===\n");
    
    DIR *dir = opendir("/sys/block");
    if (dir) {
        struct dirent *entry;
        
        printf("块设备列表:\n");
        while ((entry = readdir(dir)) != NULL) {
            if (entry->d_name[0] != '.') {
                char path[256];
                char buffer[256];
                
                // 读取设备大小
                snprintf(path, sizeof(path), "/sys/block/%s/size", entry->d_name);
                if (read_sysfs_file(path, buffer, sizeof(buffer)) == 0) {
                    unsigned long sectors = atol(buffer);
                    double size_gb = sectors * 512.0 / (1024.0 * 1024.0 * 1024.0);
                    printf("  %s: %.2f GB (%lu 扇区)\n", entry->d_name, size_gb, sectors);
                } else {
                    printf("  %s: (无法获取大小)\n", entry->d_name);
                }
                
                // 读取设备类型
                snprintf(path, sizeof(path), "/sys/block/%s/queue/rotational", entry->d_name);
                if (read_sysfs_file(path, buffer, sizeof(buffer)) == 0) {
                    if (atoi(buffer) == 1) {
                        printf("    类型: 机械硬盘\n");
                    } else {
                        printf("    类型: 固态硬盘\n");
                    }
                }
            }
        }
        
        closedir(dir);
    }
    
    printf("\n");
}

/**
 * 演示基础sysfs使用方法
 */
int demo_sysfs_basic() {
    printf("=== 基础sysfs使用示例 ===\n");
    
    // 检查sysfs是否挂载
    if (access("/sys", F_OK) == -1) {
        printf("sysfs未挂载或不可访问\n");
        return -1;
    }
    
    printf("sysfs挂载点: /sys\n");
    
    // 显示CPU信息
    show_cpu_info();
    
    // 显示内存信息
    show_memory_info();
    
    // 显示块设备信息
    show_block_devices();
    
    // 演示读取特定属性
    printf("=== 特定属性读取演示 ===\n");
    
    struct {
        const char *path;
        const char *description;
    } attributes[] = {
        {"/sys/class/dmi/id/product_name", "产品名称"},
        {"/sys/class/dmi/id/product_version", "产品版本"},
        {"/sys/class/dmi/id/bios_vendor", "BIOS厂商"},
        {"/sys/class/dmi/id/bios_version", "BIOS版本"},
        {"/sys/kernel/mm/transparent_hugepage/enabled", "透明大页状态"},
        {NULL, NULL}
    };
    
    for (int i = 0; attributes[i].path; i++) {
        char buffer[256];
        if (read_sysfs_file(attributes[i].path, buffer, sizeof(buffer)) == 0) {
            printf("%s: %s\n", attributes[i].description, buffer);
        } else {
            printf("%s: 无法读取 (%s)\n", attributes[i].description, strerror(errno));
        }
    }
    
    return 0;
}

int main() {
    return demo_sysfs_basic();
}

示例5：综合系统监控工具

#include <sys/sysinfo.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <time.h>
#include <dirent.h>
#include <fcntl.h>

/**
 * 综合系统信息结构
 */
typedef struct {
    // 系统基本信息
    time_t current_time;
    time_t boot_time;
    unsigned long uptime_seconds;
    
    // 内存信息
    unsigned long total_ram_mb;
    unsigned long free_ram_mb;
    unsigned long used_ram_mb;
    unsigned long total_swap_mb;
    unsigned long free_swap_mb;
    unsigned long used_swap_mb;
    double ram_usage_percent;
    double swap_usage_percent;
    
    // 负载信息
    double load_avg_1min;
    double load_avg_5min;
    double load_avg_15min;
    unsigned int process_count;
    
    // 硬件信息
    int cpu_count;
    int online_cpu_count;
    char hostname[256];
} system_info_t;

/**
 * 获取综合系统信息
 */
int get_system_info(system_info_t *info) {
    struct sysinfo si;
    
    // 获取系统时间
    info->current_time = time(NULL);
    
    // 获取sysinfo信息
    if (sysinfo(&si) == -1) {
        return -1;
    }
    
    // 系统基本信息
    info->uptime_seconds = si.uptime;
    info->boot_time = info->current_time - si.uptime;
    
    // 内存信息
    unsigned long mem_unit = si.mem_unit ? si.mem_unit : 1;
    info->total_ram_mb = si.totalram * mem_unit / (1024 * 1024);
    info->free_ram_mb = si.freeram * mem_unit / (1024 * 1024);
    info->used_ram_mb = info->total_ram_mb - info->free_ram_mb;
    info->total_swap_mb = si.totalswap * mem_unit / (1024 * 1024);
    info->free_swap_mb = si.freeswap * mem_unit / (1024 * 1024);
    info->used_swap_mb = info->total_swap_mb - info->free_swap_mb;
    
    info->ram_usage_percent = info->total_ram_mb > 0 ? 
        (double)info->used_ram_mb / info->total_ram_mb * 100 : 0;
    info->swap_usage_percent = info->total_swap_mb > 0 ? 
        (double)info->used_swap_mb / info->total_swap_mb * 100 : 0;
    
    // 负载信息
    info->load_avg_1min = (double)si.loads[0] / (1 << SI_LOAD_SHIFT);
    info->load_avg_5min = (double)si.loads[1] / (1 << SI_LOAD_SHIFT);
    info->load_avg_15min = (double)si.loads[2] / (1 << SI_LOAD_SHIFT);
    info->process_count = si.procs;
    
    // 硬件信息
    info->cpu_count = sysconf(_SC_NPROCESSORS_ONLN);
    info->online_cpu_count = info->cpu_count;  // 简化处理
    
    // 主机名
    gethostname(info->hostname, sizeof(info->hostname) - 1);
    
    return 0;
}

/**
 * 显示综合系统信息
 */
void show_system_info(const system_info_t *info) {
    char time_str[64];
    char boot_time_str[64];
    
    printf("=========================================\n");
    printf("         系统监控报告\n");
    printf("=========================================\n");
    
    // 时间信息
    strftime(time_str, sizeof(time_str), "%Y-%m-%d %H:%M:%S", localtime(&info->current_time));
    strftime(boot_time_str, sizeof(boot_time_str), "%Y-%m-%d %H:%M:%S", localtime(&info->boot_time));
    
    printf("主机名: %s\n", info->hostname);
    printf("当前时间: %s\n", time_str);
    printf("启动时间: %s\n", boot_time_str);
    
    unsigned long days = info->uptime_seconds / 86400;
    unsigned long hours = (info->uptime_seconds % 86400) / 3600;
    unsigned long minutes = (info->uptime_seconds % 3600) / 60;
    printf("运行时间: %lu 天 %lu 小时 %lu 分钟\n", days, hours, minutes);
    
    // CPU信息
    printf("\nCPU信息:\n");
    printf("  CPU核心数: %d\n", info->cpu_count);
    printf("  在线CPU数: %d\n", info->online_cpu_count);
    
    // 内存信息
    printf("\n内存信息:\n");
    printf("  物理内存: %lu MB / %lu MB (%.1f%%)\n", 
           info->used_ram_mb, info->total_ram_mb, info->ram_usage_percent);
    printf("  交换空间: %lu MB / %lu MB (%.1f%%)\n", 
           info->used_swap_mb, info->total_swap_mb, info->swap_usage_percent);
    
    // 负载信息
    printf("\n系统负载:\n");
    printf("  1分钟平均负载: %.2f\n", info->load_avg_1min);
    printf("  5分钟平均负载: %.2f\n", info->load_avg_5min);
    printf("  15分钟平均负载: %.2f\n", info->load_avg_15min);
    printf("  当前进程数: %u\n", info->process_count);
    
    // 系统健康状态
    printf("\n系统健康状态:\n");
    
    // 内存健康检查
    if (info->ram_usage_percent > 90) {
        printf("  ⚠ 内存使用率过高: %.1f%%\n", info->ram_usage_percent);
    } else if (info->ram_usage_percent > 80) {
        printf("  ℹ 内存使用率较高: %.1f%%\n", info->ram_usage_percent);
    } else {
        printf("  ✓ 内存使用率正常: %.1f%%\n", info->ram_usage_percent);
    }
    
    // 交换空间健康检查
    if (info->swap_usage_percent > 50) {
        printf("  ⚠ 交换空间使用过多: %.1f%%\n", info->swap_usage_percent);
    } else if (info->swap_usage_percent > 20) {
        printf("  ℹ 交换空间使用较多: %.1f%%\n", info->swap_usage_percent);
    } else {
        printf("  ✓ 交换空间使用正常: %.1f%%\n", info->swap_usage_percent);
    }
    
    // 负载健康检查
    double load_per_cpu = info->load_avg_1min / info->cpu_count;
    if (load_per_cpu > 1.5) {
        printf("  ⚠ 系统负载过重: 每CPU负载 %.2f\n", load_per_cpu);
    } else if (load_per_cpu > 1.0) {
        printf("  ℹ 系统负载中等: 每CPU负载 %.2f\n", load_per_cpu);
    } else {
        printf("  ✓ 系统负载正常: 每CPU负载 %.2f\n", load_per_cpu);
    }
    
    printf("=========================================\n\n");
}

/**
 * 实时监控模式
 */
void real_time_monitoring(int duration_seconds, int interval_seconds) {
    system_info_t info;
    time_t start_time = time(NULL);
    time_t current_time;
    int report_count = 0;
    
    printf("=== 实时系统监控 ===\n");
    printf("监控时长: %d 秒\n", duration_seconds);
    printf("监控间隔: %d 秒\n", interval_seconds);
    printf("开始监控...\n\n");
    
    while ((current_time = time(NULL)) - start_time < duration_seconds) {
        if (get_system_info(&info) == 0) {
            report_count++;
            printf("[第 %d 次监控报告] ", report_count);
            show_system_info(&info);
        } else {
            printf("获取系统信息失败: %s\n", strerror(errno));
        }
        
        // 等待下次监控
        sleep(interval_seconds);
    }
    
    printf("监控完成，共生成 %d 份报告\n", report_count);
}

/**
 * 演示综合系统监控工具
 */
int demo_comprehensive_monitor() {
    system_info_t info;
    
    printf("=== 综合系统监控工具演示 ===\n");
    
    // 单次系统信息获取
    printf("1. 当前系统状态:\n");
    if (get_system_info(&info) == 0) {
        show_system_info(&info);
    } else {
        printf("获取系统信息失败: %s\n", strerror(errno));
        return -1;
    }
    
    // 简短监控演示
    printf("2. 简短监控演示 (10秒):\n");
    real_time_monitoring(10, 3);
    
    // 系统信息统计
    printf("3. 系统信息统计:\n");
    
    // 收集统计信息
    unsigned long max_ram_used = 0, min_ram_used = (unsigned long)-1;
    double max_load_1min = 0, min_load_1min = 999;
    double total_ram_usage = 0, total_load_1min = 0;
    int sample_count = 0;
    
    printf("收集统计样本...\n");
    for (int i = 0; i < 5; i++) {
        if (get_system_info(&info) == 0) {
            // 更新最大最小值
            if (info.used_ram_mb > max_ram_used) max_ram_used = info.used_ram_mb;
            if (info.used_ram_mb < min_ram_used) min_ram_used = info.used_ram_mb;
            if (info.load_avg_1min > max_load_1min) max_load_1min = info.load_avg_1min;
            if (info.load_avg_1min < min_load_1min) min_load_1min = info.load_avg_1min;
            
            // 累加统计值
            total_ram_usage += info.ram_usage_percent;
            total_load_1min += info.load_avg_1min;
            sample_count++;
        }
        sleep(1);
    }
    
    // 显示统计结果
    if (sample_count > 0) {
        printf("\n统计结果 (%d 个样本):\n", sample_count);
        printf("  内存使用范围: %lu MB - %lu MB\n", min_ram_used, max_ram_used);
        printf("  内存使用率范围: %.1f%% - %.1f%%\n", 
               min_ram_used * 100.0 / info.total_ram_mb,
               max_ram_used * 100.0 / info.total_ram_mb);
        printf("  负载范围: %.2f - %.2f\n", min_load_1min, max_load_1min);
        printf("  平均内存使用率: %.1f%%\n", total_ram_usage / sample_count);
        printf("  平均1分钟负载: %.2f\n", total_load_1min / sample_count);
    }
    
    // 监控建议
    printf("\n=== 系统监控建议 ===\n");
    printf("1. 定期监控:\n");
    printf("   - 每5分钟检查一次关键指标\n");
    printf("   - 每小时生成详细报告\n");
    printf("   - 每天汇总统计信息\n");
    
    printf("\n2. 警报阈值:\n");
    printf("   - 内存使用率 > 90%% 触发警告\n");
    printf("   - 交换空间使用率 > 50%% 触发警告\n");
    printf("   - 每CPU负载 > 1.5 触发警告\n");
    printf("   - 进程数 > 1000 触发提醒\n");
    
    printf("\n3. 性能优化:\n");
    printf("   - 根据负载趋势调整资源配置\n");
    printf("   - 及时清理内存泄漏进程\n");
    printf("   - 优化高负载应用\n");
    printf("   - 合理配置交换空间\n");
    
    return 0;
}

int main() {
    return demo_comprehensive_monitor();
}

sysfs/sysinfo 使用注意事项

系统要求：

内核版本: 支持sysfs的Linux内核（2.6+）
权限要求: 通常不需要特殊权限
挂载要求: sysfs必须正确挂载（通常在/sys）

sysfs特点：

虚拟文件系统: 不占用磁盘空间
动态更新: 实时反映内核状态
层次结构: 按照设备类型组织
只读属性: 大部分文件是只读的

sysinfo特点：

轻量级: 系统调用开销小
实时性: 提供当前系统状态
标准化: 跨平台兼容性好
信息全面: 涵盖主要系统指标

错误处理：

ENOENT: 文件或目录不存在
EACCES: 权限不足
EINVAL: 参数无效
ENOMEM: 内存不足

性能考虑：

缓存利用: 适当缓存频繁访问的信息
批量读取: 减少系统调用次数
异步处理: 避免阻塞主线程
增量更新: 只更新变化的信息

安全考虑：

权限检查: 验证访问权限
输入验证: 验证读取的数据
资源限制: 避免过度消耗系统资源
日志记录: 记录重要操作

最佳实践：

信息整合: 综合多个信息源
趋势分析: 关注指标变化趋势
警报机制: 及时发现异常情况
可视化展示: 直观显示监控结果

sysfs目录结构

主要目录：

/sys/
├── block/          # 块设备信息
├── bus/            # 总线信息
├── class/          # 设备类信息
├── dev/            # 设备信息
├── devices/        # 设备树
├── firmware/       # 固件信息
├── fs/             # 文件系统信息
└── kernel/         # 内核信息

sysinfo结构详解

struct sysinfo：

struct sysinfo {
    long uptime;         // 系统运行时间（秒）
    unsigned long loads[3];  // 1,5,15分钟负载平均值
    unsigned long totalram;  // 总物理内存
    unsigned long freeram;   // 可用物理内存
    unsigned long sharedram; // 共享内存
    unsigned long bufferram; // 缓冲区内存
    unsigned long totalswap; // 总交换空间
    unsigned long freeswap;  // 可用交换空间
    unsigned short procs;    // 当前进程数
    unsigned long totalhigh; // 高端内存总量
    unsigned long freehigh;  // 可用高端内存
    unsigned int mem_unit;   // 内存单位
    char _f[20-2*sizeof(__kernel_ulong_t)-sizeof(__u32)]; // 填充
};

常见使用场景

1. 系统监控：

// 实时监控系统资源使用情况
struct sysinfo si;
sysinfo(&si);
double ram_usage = (si.totalram - si.freeram) * 100.0 / si.totalram;

2. 性能分析：

// 分析系统负载和性能瓶颈
double load_per_cpu = si.loads[0] / (1 << SI_LOAD_SHIFT) / cpu_count;

3. 资源管理：

// 根据系统资源动态调整应用行为
if (si.freeram * si.mem_unit < MIN_MEMORY_THRESHOLD) {
    // 内存不足，采取措施
}

4. 硬件信息查询：

// 通过sysfs查询硬件详细信息
char model[256];
read_sysfs_file("/sys/class/dmi/id/product_name", model, sizeof(model));

总结

sysfs 和 sysinfo 是Linux系统中重要的系统信息访问接口：

sysfs特点：

结构化信息: 提供详细的硬件和内核对象信息
动态更新: 实时反映系统状态变化
标准化接口: 统一的文件系统访问方式
丰富内容: 涵盖各类系统组件信息

sysinfo特点：

快速访问: 高效获取系统整体统计信息
标准API: 跨平台兼容的系统调用
全面指标: 包含内存、负载、进程等关键信息
实时监控: 适合构建监控和告警系统

通过合理使用这两个接口，可以构建功能强大的系统监控和管理工具，为系统运维和性能优化提供有力支持。在实际应用中，需要注意错误处理、性能优化和安全考虑等方面的问题。

发表在 linux文章 | 留下评论

syslog系统调用及示例

发表于2025-08-08由麦芽爸

我们来深入学习 syslog 系统调用（注意：这里的 syslog 不是指用户空间的 syslog() 函数，而是指 Linux 内核提供的一个系统调用，用于从内核空间向用户空间的系统日志守护进程发送消息）

不过，通常当我们谈论在用户空间程序中记录日志时，我们指的是使用标准 C 库提供的 syslog(3) 函数。这个函数是用户空间 API，它在底层可能会使用 syslog 系统调用来与系统日志守护进程（如 rsyslogd 或 syslogd）通信。

让我们先明确一下：

syslog 系统调用：这是内核使用的低级机制。
syslog(3) 用户空间函数：这是程序员在应用程序中记录日志时使用的标准库函数。

由于直接调用 syslog 系统调用在用户空间编程中非常罕见且复杂，我们重点学习更常用、更相关的 syslog(3) 用户空间函数。

1. 函数介绍 (针对 `syslog(3)` 用户空间函数)

在 Linux 系统中，程序需要记录运行状态、错误信息、调试信息等，这些信息对于系统管理员监控系统、诊断问题至关重要。将这些信息直接打印到终端是不合适的，特别是对于后台运行的守护进程（daemons）来说，它们通常没有终端。

syslog(3) 函数提供了一种标准化的方法，让程序可以将日志消息发送到系统的系统日志 (System Log) 设施。这个设施通常由一个守护进程（如 rsyslogd）管理，它负责接收来自内核和各种用户空间程序的日志消息，然后根据配置将它们写入文件（如 /var/log/messages, /var/log/syslog）、发送到远程日志服务器，或在终端上显示。

简单来说，syslog(3) 就是让你的程序能够像系统内核或其他服务一样，把“日志”规范地记录到系统日志中，方便集中管理和查看。

典型应用场景：

守护进程 (Daemons)：如 web 服务器、数据库服务器等后台服务，使用 syslog 记录启动、关闭、错误、警告等信息。
系统工具：许多系统自带的命令行工具使用 syslog 来报告执行状态或错误。
调试和监控：开发人员可以在程序中插入 syslog 调用来记录关键步骤或变量状态，帮助调试。

2. 函数原型

#include <syslog.h> // 包含 syslog 函数声明

// 打开到系统日志的连接
void openlog(const char *ident, int option, int facility);

// 写入一条日志消息
void syslog(int priority, const char *format, ...);

// 在日志消息中包含一组变量参数
void vsyslog(int priority, const char *format, va_list ap);

// 关闭到系统日志的连接
void closelog(void);

// (高级) 设置哪些日志消息会被丢弃
int setlogmask(int maskpri);

3. 功能

openlog: 打开一个到系统日志设施的连接（如果尚未打开），并设置一些默认参数，如程序名称、选项和默认的设施类型。
syslog: 将一条格式化的消息写入系统日志。
vsyslog: 与 syslog 功能相同，但参数列表使用 va_list，通常由其他变参函数调用。
closelog: 关闭到系统日志设施的连接。
setlogmask: 设置一个掩码，用于过滤掉优先级低于指定级别的日志消息。

4. 参数详解

`openlog(const char *ident, int option, int facility)`

ident:
- const char * 类型。
- 指向一个字符串，该字符串将被添加到每条日志消息的开头。通常设置为程序的名称，方便识别日志来源。例如，如果 ident 是 "my_daemon"，日志可能显示为 my_daemon[12345]: ...。
option:
- int 类型。
- 一个位掩码，用于指定 openlog 和后续 syslog 调用的各种选项。可以是以下值的按位或 (|) 组合：
  - LOG_CONS: 如果日志消息无法通过网络发送给日志守护进程，则直接写入系统控制台 (/dev/console)。
  - LOG_NDELAY: 立即打开到日志守护进程的连接，而不是等到第一条日志消息被写入时才打开。
  - LOG_NOWAIT: (已废弃，通常被忽略)。
  - LOG_ODELAY: 延迟打开连接，直到第一条日志消息被写入（这是默认行为，与 LOG_NDELAY 相反）。
  - LOG_PERROR: 除了将消息发送到系统日志外，还将消息输出到标准错误 (stderr)。
  - LOG_PID: 在每条日志消息中包含调用进程的 PID。例如：my_daemon[12345]: ...。
facility:
- int 类型。
- 指定程序的类型或消息的来源类别。日志守护进程使用这个信息来决定如何处理消息（例如，存储到哪个文件）。常见的设施类型有：
  - LOG_AUTH: 安全/授权消息。
  - LOG_AUTHPRIV: 私有的安全/授权消息。
  - LOG_CRON: 定时任务守护进程 (cron) 产生的消息。
  - LOG_DAEMON: 系统守护进程产生的消息。
  - LOG_FTP: FTP 守护进程产生的消息。
  - LOG_KERN: 内核产生的消息。
  - LOG_LOCAL0 到 LOG_LOCAL7: 保留给本地使用。
  - LOG_LPR: 行式打印机系统产生的消息。
  - LOG_MAIL: 邮件系统产生的消息。
  - LOG_NEWS: 网络新闻系统产生的消息。
  - LOG_SYSLOG: 由 syslogd 内部产生的消息。
  - LOG_USER: 任意的用户级消息（这是默认值）。
  - LOG_UUCP: UUCP 子系统产生的消息。

`syslog(int priority, const char *format, ...)`

priority:
- int 类型。
- 指定消息的优先级（重要性）。它由设施类型和严重性级别组成，通过按位或 (|) 操作符组合。
- 严重性级别 (从高到低)：
  - LOG_EMERG: 系统不可用 (Emergency)。
  - LOG_ALERT: 必须立即处理的动作 (Alert)。
  - LOG_CRIT: 严重情况 (Critical)。
  - LOG_ERR: 错误条件 (Error)。
  - LOG_WARNING: 警告条件 (Warning)。
  - LOG_NOTICE: 正常但重要的情况 (Notice)。
  - LOG_INFO: 信息性消息 (Informational)。
  - LOG_DEBUG: 调试级别的消息 (Debug)。
- 设施类型：如果在此处指定了设施类型（如 LOG_DAEMON | LOG_ERR），它会覆盖 openlog 中设置的默认设施类型。如果未指定（只写级别，如 LOG_ERR），则使用 openlog 中的默认设施。
format:
- const char * 类型。
- 一个 printf 风格的格式字符串，用于指定日志消息的格式。
...:
- 可变参数列表，对应 format 字符串中的格式说明符。

`closelog(void)`

无参数。关闭与系统日志守护进程的连接。这是一个可选调用，因为程序退出时连接会自动关闭。

`setlogmask(int maskpri)`

maskpri:
- int 类型。
- 一个位掩码，定义了哪些优先级的消息应该被处理。可以使用 LOG_MASK(priority) 宏来生成针对单个级别的掩码，或使用 LOG_UPTO(priority) 宏来生成包含从 LOG_EMERG 到指定 priority 的所有级别的掩码。
返回值: 返回调用 setlogmask 之前的掩码。

5. 返回值

openlog, syslog, vsyslog, closelog: 无返回值。
setlogmask: 返回调用前的掩码。

6. 示例代码

下面的示例演示了如何使用 syslog(3) 函数族来记录不同类型和级别的日志消息。

#define _GNU_SOURCE // 启用 GNU 扩展
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <syslog.h> // 包含 syslog 函数
#include <stdarg.h> // 包含 va_list, va_start, va_end
#include <sys/stat.h> // 包含权限常量
#include <fcntl.h>    // 包含 open, O_* flags
#include <errno.h>
#include <string.h>

// 一个模拟的复杂操作函数，使用 syslog 记录其步骤
void complex_operation(int param) {
    syslog(LOG_INFO, "Starting complex operation with param=%d", param);

    if (param < 0) {
        syslog(LOG_WARNING, "Warning: param %d is negative, using absolute value.", param);
        param = abs(param);
    }

    // 模拟一个可能失败的操作
    if (param == 0) {
        syslog(LOG_ERR, "Error: Invalid parameter (zero) for complex operation.");
        return; // 提前返回
    }

    // 模拟工作
    for (int i = 0; i < param; ++i) {
        // 只记录一部分调试信息，避免日志过多
        if (i % (param / 4 + 1) == 0) {
            syslog(LOG_DEBUG, "complex_operation: Processing step %d/%d", i, param);
        }
        // 模拟一些计算或 I/O
        usleep(100000); // 休眠 0.1 秒
    }

    syslog(LOG_INFO, "Finished complex operation successfully with param=%d", param);
}

// 一个使用 va_list 的包装函数示例
void my_log_wrapper(int priority, const char *format, ...) {
    va_list args;
    va_start(args, format);
    // 使用 vsyslog 记录消息
    vsyslog(priority, format, args);
    va_end(args);
}

int main() {
    printf("--- Demonstrating syslog ---\n");
    printf("PID: %d\n", getpid());

    // 1. 打开 syslog 连接
    // ident: "my_app" 会作为日志消息的前缀
    // LOG_PID: 在消息中包含进程 PID
    // LOG_CONS: 如果无法联系 syslogd，则写入控制台
    // LOG_PERROR: 同时将消息输出到 stderr
    // facility: LOG_USER 表示这是一般用户级消息
    openlog("my_app", LOG_PID | LOG_CONS | LOG_PERROR, LOG_USER);

    syslog(LOG_INFO, "Application started.");

    // 2. 演示不同级别的日志
    syslog(LOG_DEBUG, "This is a debug message. You might not see it depending on syslog config.");
    syslog(LOG_INFO, "This is an informational message.");
    syslog(LOG_NOTICE, "This is a notice message.");
    syslog(LOG_WARNING, "This is a warning message.");
    syslog(LOG_ERR, "This is an error message.");
    syslog(LOG_CRIT, "This is a critical message.");
    syslog(LOG_ALERT, "This is an alert message.");
    syslog(LOG_EMERG, "This is an emergency message.");

    // 3. 演示使用设施类型
    syslog(LOG_DAEMON | LOG_INFO, "This message has facility DAEMON.");

    // 4. 演示格式化消息
    int value = 42;
    const char *name = "example";
    syslog(LOG_INFO, "Formatted message: value=%d, name='%s'", value, name);

    // 5. 演示使用 setlogmask 过滤日志
    printf("\n--- Demonstrating setlogmask ---\n");
    // 先记录一条 Debug 消息 (可能看不到，取决于系统默认配置)
    syslog(LOG_DEBUG, "Debug message before setting mask.");

    // 设置掩码，只允许 INFO 级别及以上的消息通过
    // LOG_UPTO(LOG_INFO) 包含 LOG_EMERG, LOG_ALERT, ..., LOG_INFO
    setlogmask(LOG_UPTO(LOG_INFO));

    syslog(LOG_DEBUG, "Debug message after setting mask to UPTO INFO. (Should be masked out)");
    syslog(LOG_INFO, "Info message after setting mask. (Should be visible)");
    syslog(LOG_WARNING, "Warning message after setting mask. (Should be visible)");

    // 6. 调用模拟函数
    printf("\n--- Calling complex_operation ---\n");
    complex_operation(5);
    complex_operation(-3);
    complex_operation(0);

    // 7. 使用自定义包装函数
    printf("\n--- Using custom wrapper function ---\n");
    my_log_wrapper(LOG_INFO, "Message sent via custom wrapper function with value %d.", 100);

    // 8. 关闭 syslog 连接 (可选)
    syslog(LOG_INFO, "Application is shutting down.");
    closelog();

    printf("\n--- Finished ---\n");
    printf("Check your system log files (e.g., /var/log/messages, /var/log/syslog)\n");
    printf("or use 'journalctl' (on systemd systems) to see the logged messages.\n");
    printf("Look for entries prefixed with 'my_app'.\n");

    return 0;
}

7. 编译和运行

# 假设代码保存在 syslog_example.c 中
gcc -o syslog_example syslog_example.c

# 运行程序
./syslog_example

8. 查看日志

程序运行后，日志消息会被发送到系统的日志设施。如何查看取决于你的 Linux 发行版和配置：

传统 syslog 系统：
- 检查 /var/log/messages 或 /var/log/syslog 文件。
- 使用 tail -f /var/log/messages 实时查看。
systemd 系统 (使用 journald)：
- 使用 journalctl 命令：
  - journalctl -f：实时查看所有日志。
  - journalctl -t my_app：查看标签为 my_app 的日志。
  - journalctl -u <service_name>：查看特定服务的日志。

示例 journalctl 输出:

...
Feb 15 10:30:00 hostname my_app[12345]: Application started.
Feb 15 10:30:00 hostname my_app[12345]: This is an informational message.
Feb 15 10:30:00 hostname my_app[12345]: This is a notice message.
Feb 15 10:30:00 hostname my_app[12345]: This is a warning message.
Feb 15 10:30:00 hostname my_app[12345]: This is an error message.
Feb 15 10:30:00 hostname my_app[12345]: This is a critical message.
Feb 15 10:30:00 hostname my_app[12345]: This is an alert message.
Feb 15 10:30:00 hostname my_app[12345]: This is an emergency message.
Feb 15 10:30:00 hostname my_app[12345]: This message has facility DAEMON.
Feb 15 10:30:00 hostname my_app[12345]: Formatted message: value=42, name='example'
Feb 15 10:30:00 hostname my_app[12345]: Info message after setting mask. (Should be visible)
Feb 15 10:30:00 hostname my_app[12345]: Warning message after setting mask. (Should be visible)
Feb 15 10:30:00 hostname my_app[12345]: Starting complex operation with param=5
Feb 15 10:30:01 hostname my_app[12345]: complex_operation: Processing step 0/5
Feb 15 10:30:01 hostname my_app[12345]: complex_operation: Processing step 1/5
Feb 15 10:30:01 hostname my_app[12345]: complex_operation: Processing step 2/5
Feb 15 10:30:01 hostname my_app[12345]: complex_operation: Processing step 3/5
Feb 15 10:30:01 hostname my_app[12345]: complex_operation: Processing step 4/5
Feb 15 10:30:01 hostname my_app[12345]: Finished complex operation successfully with param=5
Feb 15 10:30:01 hostname my_app[12345]: Starting complex operation with param=3
Feb 15 10:30:01 hostname my_app[12345]: Warning: param 3 is negative, using absolute value.
Feb 15 10:30:01 hostname my_app[12345]: complex_operation: Processing step 0/3
Feb 15 10:30:01 hostname my_app[12345]: complex_operation: Processing step 1/3
Feb 15 10:30:01 hostname my_app[12345]: complex_operation: Processing step 2/3
Feb 15 10:30:01 hostname my_app[12345]: Finished complex operation successfully with param=3
Feb 15 10:30:01 hostname my_app[12345]: Starting complex operation with param=0
Feb 15 10:30:01 hostname my_app[12345]: Error: Invalid parameter (zero) for complex operation.
Feb 15 10:30:01 hostname my_app[12345]: Message sent via custom wrapper function with value 100.
Feb 15 10:30:01 hostname my_app[12345]: Application is shutting down.
...

9. 总结

syslog(3) 是 Linux 用户空间程序记录日志的标准且强大的工具。

openlog 用于初始化，设置日志来源标识、选项和默认设施。
syslog 用于实际写入日志消息，指定优先级和格式化内容。
closelog 用于清理（可选）。
setlogmask 用于在程序内部动态控制哪些级别的日志被记录。

通过使用 syslog，程序可以将日志集成到系统的统一日志管理框架中，这对于系统管理和故障排查非常有价值。它是编写健壮、可维护的 Linux 应用程序的基础技能之一。

关于真正的 syslog 系统调用：

如果你确实需要了解内核空间的 syslog 系统调用（用于 syslogd 守护进程与内核通信，或使用 klogctl 函数从用户空间访问内核日志缓冲区），请告知，我可以提供相关信息。但对于应用程序员来说，syslog(3) 是日常记录日志的正确选择。

发表在 linux文章 | 留下评论

tee系统调用及示例tee

发表于2025-08-08由麦芽爸

tee函数详解

1. 函数介绍

tee函数是Linux系统中一个非常实用的函数，它的作用就像现实中的”T型管道”一样。想象一下水管系统中的T型接头，水从主管道流入，同时流向两个不同的分支管道。在Linux编程中，tee函数就是这样一个”管道分流器”，它能够将一个管道中的数据同时复制到另一个管道中，而不需要将数据从内核空间复制到用户空间再复制回去。

使用场景：

管道数据的复制和分流
避免不必要的数据拷贝，提高程序性能
实现数据的并行处理
日志记录系统中同时写入多个输出流

2. 函数原型

#include <fcntl.h>
ssize_t tee(int fd_in, int fd_out, size_t len, unsigned int flags);

3. 功能

tee函数的主要功能是在两个管道描述符之间高效地复制数据。它不经过用户空间，直接在内核中完成数据的复制，这大大提高了效率。这个函数特别适用于需要将数据从一个管道同时发送到多个目的地的场景。

4. 参数

fd_in: 源管道文件描述符（输入端）
- 类型：int
- 含义：数据来源的管道描述符，必须是管道或套接字
fd_out: 目标管道文件描述符（输出端）
- 类型：int
- 含义：数据目标的管道描述符，必须是管道或套接字
len: 要复制的数据长度
- 类型：size_t
- 含义：希望复制的最大字节数
flags: 操作标志
- 类型：unsigned int
- 含义：控制复制行为的标志位
- 常用值：
  - SPLICE_F_MOVE：尽可能移动页面而不是复制
  - SPLICE_F_NONBLOCK：非阻塞操作
  - SPLICE_F_MORE：提示还有更多数据要写入
  - SPLICE_F_GIFT：页面是礼品（内核内部使用）

5. 返回值

成功: 返回实际复制的字节数（ssize_t类型）
失败: 返回-1，并设置errno错误码
- EINVAL：参数无效
- EBADF：文件描述符无效
- ESPIPE：文件描述符不是管道
- ENOMEM：内存不足

6. 相似函数或关联函数

splice(): 在文件描述符之间移动数据
vmsplice(): 从用户空间缓冲区向管道写入数据
read()/write(): 传统的数据读写函数
pipe(): 创建管道

7. 示例代码

示例1：基础tee使用 – 简单的数据分流

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>

int main() {
    int pipe1[2], pipe2[2];  // 创建两个管道
    char buffer1[100], buffer2[100];
    ssize_t bytes_written, bytes_read;
    
    // 创建管道1
    if (pipe(pipe1) == -1) {
        perror("创建管道1失败");
        exit(EXIT_FAILURE);
    }
    
    // 创建管道2
    if (pipe(pipe2) == -1) {
        perror("创建管道2失败");
        exit(EXIT_FAILURE);
    }
    
    // 向管道1写入数据
    const char* message = "Hello, tee function!";
    write(pipe1[1], message, strlen(message));
    
    // 使用tee函数将管道1的数据复制到管道2
    // 注意：tee不消耗数据，数据仍保留在源管道中
    bytes_written = tee(pipe1[0], pipe2[1], strlen(message), SPLICE_F_NONBLOCK);
    
    if (bytes_written == -1) {
        perror("tee函数执行失败");
        exit(EXIT_FAILURE);
    }
    
    printf("tee函数复制了 %zd 字节的数据\n", bytes_written);
    
    // 从管道1读取数据（验证数据仍然存在）
    bytes_read = read(pipe1[0], buffer1, sizeof(buffer1) - 1);
    if (bytes_read > 0) {
        buffer1[bytes_read] = '\0';
        printf("从管道1读取: %s\n", buffer1);
    }
    
    // 从管道2读取数据（验证数据已成功复制）
    bytes_read = read(pipe2[0], buffer2, sizeof(buffer2) - 1);
    if (bytes_read > 0) {
        buffer2[bytes_read] = '\0';
        printf("从管道2读取: %s\n", buffer2);
    }
    
    // 关闭所有文件描述符
    close(pipe1[0]);
    close(pipe1[1]);
    close(pipe2[0]);
    close(pipe2[1]);
    
    return 0;
}

示例2：tee实现日志同时输出到文件和终端

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>

int main() {
    int log_pipe[2], stdout_pipe[2];
    int log_file;
    ssize_t bytes_copied;
    const char* log_message = "这是一个重要的日志信息\n";
    
    // 创建管道用于日志处理
    if (pipe(log_pipe) == -1) {
        perror("创建日志管道失败");
        exit(EXIT_FAILURE);
    }
    
    // 创建管道用于标准输出
    if (pipe(stdout_pipe) == -1) {
        perror("创建标准输出管道失败");
        exit(EXIT_FAILURE);
    }
    
    // 打开日志文件
    log_file = open("app.log", O_WRONLY | O_CREAT | O_APPEND, 0644);
    if (log_file == -1) {
        perror("打开日志文件失败");
        exit(EXIT_FAILURE);
    }
    
    // 向日志管道写入消息
    write(log_pipe[1], log_message, strlen(log_message));
    
    // 使用tee将日志同时复制到标准输出管道和日志文件
    // 第一次tee：复制到标准输出管道
    bytes_copied = tee(log_pipe[0], stdout_pipe[1], strlen(log_message), SPLICE_F_MORE);
    if (bytes_copied == -1) {
        perror("tee复制到标准输出失败");
        exit(EXIT_FAILURE);
    }
    
    // 第二次tee：复制到日志文件（使用splice，因为文件不是管道）
    // 注意：tee只能用于管道之间，文件需要使用splice
    bytes_copied = splice(log_pipe[0], NULL, log_file, NULL, strlen(log_message), SPLICE_F_MOVE);
    if (bytes_copied == -1) {
        perror("splice复制到日志文件失败");
        exit(EXIT_FAILURE);
    }
    
    // 从标准输出管道读取并显示
    char output_buffer[256];
    ssize_t bytes_read = read(stdout_pipe[0], output_buffer, sizeof(output_buffer) - 1);
    if (bytes_read > 0) {
        output_buffer[bytes_read] = '\0';
        printf("终端输出: %s", output_buffer);
    }
    
    printf("日志已同时写入文件和终端\n");
    
    // 清理资源
    close(log_pipe[0]);
    close(log_pipe[1]);
    close(stdout_pipe[0]);
    close(stdout_pipe[1]);
    close(log_file);
    
    return 0;
}

示例3：tee与管道链结合使用

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <string.h>
#include <sys/wait.h>

int main() {
    int pipe1[2], pipe2[2], pipe3[2];
    pid_t pid1, pid2;
    
    // 创建三个管道
    if (pipe(pipe1) == -1 || pipe(pipe2) == -1 || pipe(pipe3) == -1) {
        perror("创建管道失败");
        exit(EXIT_FAILURE);
    }
    
    // 创建第一个子进程 - 数据生产者
    pid1 = fork();
    if (pid1 == 0) {
        // 子进程1：向管道1写入数据
        close(pipe1[0]); // 关闭读端
        const char* data = "数据流: 1 2 3 4 5\n";
        write(pipe1[1], data, strlen(data));
        close(pipe1[1]);
        exit(0);
    }
    
    // 创建第二个子进程 - 数据处理和分流
    pid2 = fork();
    if (pid2 == 0) {
        // 子进程2：使用tee分流数据
        close(pipe1[1]); // 关闭管道1的写端
        close(pipe2[0]); // 关闭管道2的读端
        close(pipe3[0]); // 关闭管道3的读端
        
        // 使用tee将管道1的数据同时复制到管道2和管道3
        ssize_t copied = tee(pipe1[0], pipe2[1], 1024, SPLICE_F_MORE);
        if (copied > 0) {
            // 再次tee复制到第三个管道
            tee(pipe1[0], pipe3[1], 1024, 0);
        }
        
        close(pipe1[0]);
        close(pipe2[1]);
        close(pipe3[1]);
        exit(0);
    }
    
    // 父进程：读取分流后的数据
    close(pipe1[0]); close(pipe1[1]); // 父进程不需要管道1
    close(pipe2[1]); // 父进程不需要管道2的写端
    close(pipe3[1]); // 父进程不需要管道3的写端
    
    // 等待子进程完成
    waitpid(pid1, NULL, 0);
    waitpid(pid2, NULL, 0);
    
    // 读取管道2的数据
    char buffer2[256];
    ssize_t bytes2 = read(pipe2[0], buffer2, sizeof(buffer2) - 1);
    if (bytes2 > 0) {
        buffer2[bytes2] = '\0';
        printf("处理器1收到: %s", buffer2);
    }
    
    // 读取管道3的数据
    char buffer3[256];
    ssize_t bytes3 = read(pipe3[0], buffer3, sizeof(buffer3) - 1);
    if (bytes3 > 0) {
        buffer3[bytes3] = '\0';
        printf("处理器2收到: %s", buffer3);
    }
    
    // 清理资源
    close(pipe2[0]);
    close(pipe3[0]);
    
    return 0;
}

编译和运行

# 编译示例1
gcc -o tee_example1 tee_example1.c
./tee_example1

# 编译示例2
gcc -o tee_example2 tee_example2.c
./tee_example2

# 编译示例3
gcc -o tee_example3 tee_example3.c
./tee_example3

通过这些示例，你可以看到tee函数在数据分流、日志处理和管道链中的强大应用。记住，tee函数的关键优势是避免了用户空间和内核空间之间的数据拷贝，这在处理大量数据时能显著提高性能。

发表在 linux文章 | 留下评论

tgkill系统调用及示例

发表于2025-08-08由麦芽爸

tgkill函数详解

1. 函数介绍

tgkill函数是Linux系统中一个精确的进程控制函数，它的名字来源于”Thread Group Kill”（线程组杀死）。在Linux中，每个进程实际上是一个线程组，主线程的ID就是进程ID。tgkill允许你精确地向指定进程组中的特定线程发送信号。

可以把tgkill想象成一个”精确制导导弹”，它不仅能指定攻击哪个”军队”（进程组），还能精确指定攻击该军队中的哪个”士兵”（特定线程）。相比之下，传统的kill函数更像是”地毯式轰炸”，可能会影响整个进程组。

使用场景：

多线程程序中精确控制特定线程
线程调试和测试
实现线程间通信机制
精确的线程终止控制

2. 函数原型

#include <sys/syscall.h>
#include <signal.h>

long syscall(SYS_tgkill, int tgid, int tid, int sig);
// 或者使用封装函数（如果系统提供）
int tgkill(int tgid, int tid, int sig);

注意：tgkill不是标准C库函数，通常需要通过系统调用来使用。

3. 功能

tgkill函数的主要功能是向指定的线程组中的特定线程发送信号。它提供了比传统kill函数更高的精确度：

tgid（Thread Group ID）：线程组ID，通常是进程ID
tid（Thread ID）：线程ID，指定线程组中的具体线程
sig：要发送的信号

4. 参数

tgid: 线程组ID（Thread Group ID）
- 类型：int
- 含义：目标线程所属的线程组ID，通常等于进程ID（PID）
tid: 线程ID（Thread ID）
- 类型：int
- 含义：线程组中具体线程的ID，必须是该线程组中的有效线程
sig: 信号编号
- 类型：int
- 含义：要发送给目标线程的信号，如SIGTERM、SIGKILL、SIGUSR1等

5. 返回值

成功: 返回0
失败: 返回-1，并设置errno错误码
- EINVAL：信号编号无效
- ESRCH：找不到指定的线程组或线程
- EPERM：没有权限向目标线程发送信号
- EAGAIN：系统资源不足

6. 相似函数或关联函数

kill(): 向进程发送信号
pthread_kill(): 向POSIX线程发送信号
raise(): 向当前进程发送信号
signal()/sigaction(): 设置信号处理函数
getpid(): 获取当前进程ID
gettid(): 获取当前线程ID

7. 示例代码

示例1：基础tgkill使用 – 精确控制线程

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/syscall.h>
#include <signal.h>
#include <pthread.h>
#include <string.h>
#include <errno.h>
#include <sys/types.h>

// 获取线程ID的辅助函数
pid_t gettid(void) {
    return syscall(SYS_gettid);
}

// 线程处理函数
void signal_handler(int sig) {
    printf("线程 %d 收到信号 %d (%s)\n", gettid(), sig, strsignal(sig));
}

// 工作线程函数
void* worker_thread(void* arg) {
    int thread_num = *(int*)arg;
    pid_t tid = gettid();
    
    printf("工作线程 %d 启动，线程ID: %d\n", thread_num, tid);
    
    // 设置信号处理函数
    signal(SIGUSR1, signal_handler);
    signal(SIGTERM, signal_handler);
    
    // 线程主循环
    while(1) {
        printf("线程 %d 正在工作...\n", tid);
        sleep(2);
    }
    
    return NULL;
}

// tgkill系统调用封装
int tgkill(int tgid, int tid, int sig) {
    return syscall(SYS_tgkill, tgid, tid, sig);
}

int main() {
    pthread_t threads[3];
    int thread_nums[3] = {1, 2, 3};
    pid_t main_tid = gettid();
    pid_t pids[3];
    int i;
    
    printf("主线程ID: %d, 进程ID: %d\n", main_tid, getpid());
    
    // 创建多个工作线程
    for(i = 0; i < 3; i++) {
        if(pthread_create(&threads[i], NULL, worker_thread, &thread_nums[i]) != 0) {
            perror("创建线程失败");
            exit(EXIT_FAILURE);
        }
        // 给线程一些时间启动
        sleep(1);
        pids[i] = gettid(); // 这里简化处理，实际应该从线程中获取
    }
    
    // 让线程运行一段时间
    sleep(3);
    
    // 向特定线程发送自定义信号
    printf("\n=== 向线程发送SIGUSR1信号 ===\n");
    if(tgkill(getpid(), pids[0], SIGUSR1) == 0) {
        printf("成功向线程 %d 发送 SIGUSR1 信号\n", pids[0]);
    } else {
        perror("tgkill发送信号失败");
    }
    
    sleep(2);
    
    // 向另一个线程发送终止信号
    printf("\n=== 向线程发送SIGTERM信号 ===\n");
    if(tgkill(getpid(), pids[1], SIGTERM) == 0) {
        printf("成功向线程 %d 发送 SIGTERM 信号\n", pids[1]);
    } else {
        perror("tgkill发送信号失败");
    }
    
    sleep(2);
    
    // 演示错误处理
    printf("\n=== 演示错误处理 ===\n");
    if(tgkill(999999, 999999, SIGTERM) == -1) {
        printf("向不存在的线程发送信号失败（预期行为）: %s\n", strerror(errno));
    }
    
    // 等待几秒观察结果
    sleep(3);
    
    // 强制终止所有线程
    printf("\n=== 终止所有线程 ===\n");
    for(i = 0; i < 3; i++) {
        tgkill(getpid(), pids[i], SIGKILL);
    }
    
    return 0;
}

示例2：线程监控和管理

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/syscall.h>
#include <signal.h>
#include <pthread.h>
#include <string.h>
#include <errno.h>
#include <sys/types.h>
#include <time.h>

#define MAX_THREADS 5

// 线程信息结构体
typedef struct {
    pthread_t thread;
    pid_t tid;
    int id;
    int running;
    time_t start_time;
} thread_info_t;

thread_info_t threads[MAX_THREADS];
pthread_mutex_t mutex = PTHREAD_MUTEX_INITIALIZER;

// 获取线程ID
pid_t gettid(void) {
    return syscall(SYS_gettid);
}

// 信号处理函数
void signal_handler(int sig) {
    pid_t tid = gettid();
    printf("[信号处理] 线程 %d 收到信号: %s\n", tid, strsignal(sig));
    
    if(sig == SIGUSR1) {
        printf("[信号处理] 线程 %d 将暂停工作\n", tid);
        sleep(5);
        printf("[信号处理] 线程 %d 恢复工作\n", tid);
    } else if(sig == SIGTERM) {
        printf("[信号处理] 线程 %d 准备退出\n", tid);
        pthread_exit(NULL);
    }
}

// 工作线程函数
void* worker_thread(void* arg) {
    thread_info_t* info = (thread_info_t*)arg;
    info->tid = gettid();
    info->running = 1;
    info->start_time = time(NULL);
    
    printf("工作线程 %d 启动，系统线程ID: %d\n", info->id, info->tid);
    
    // 设置信号处理
    signal(SIGUSR1, signal_handler);
    signal(SIGTERM, signal_handler);
    signal(SIGINT, signal_handler);
    
    // 工作循环
    while(info->running) {
        printf("线程 %d 正在处理任务...\n", info->tid);
        sleep(3);
    }
    
    printf("线程 %d 正常退出\n", info->tid);
    return NULL;
}

// tgkill封装函数
int tgkill(int tgid, int tid, int sig) {
    return syscall(SYS_tgkill, tgid, tid, sig);
}

// 显示所有线程状态
void show_thread_status() {
    printf("\n=== 线程状态 ===\n");
    pthread_mutex_lock(&mutex);
    for(int i = 0; i < MAX_THREADS; i++) {
        if(threads[i].tid != 0) {
            time_t uptime = time(NULL) - threads[i].start_time;
            printf("线程 %d: TID=%d, 状态=%s, 运行时间=%lds\n", 
                   threads[i].id, threads[i].tid,
                   threads[i].running ? "运行中" : "已停止",
                   uptime);
        }
    }
    pthread_mutex_unlock(&mutex);
    printf("================\n\n");
}

int main() {
    int i;
    
    printf("主线程监控程序启动，PID: %d\n", getpid());
    
    // 初始化线程信息
    memset(threads, 0, sizeof(threads));
    
    // 创建工作线程
    for(i = 0; i < MAX_THREADS; i++) {
        threads[i].id = i + 1;
        if(pthread_create(&threads[i].thread, NULL, worker_thread, &threads[i]) != 0) {
            perror("创建线程失败");
            exit(EXIT_FAILURE);
        }
        printf("创建线程 %d\n", i + 1);
    }
    
    // 给线程一些启动时间
    sleep(2);
    
    // 显示初始状态
    show_thread_status();
    
    // 演示各种tgkill操作
    printf("=== 演示tgkill操作 ===\n");
    
    // 向第一个线程发送暂停信号
    if(tgkill(getpid(), threads[0].tid, SIGUSR1) == 0) {
        printf("向线程 %d 发送暂停信号\n", threads[0].tid);
    }
    
    sleep(1);
    
    // 向第三个线程发送终止信号
    if(tgkill(getpid(), threads[2].tid, SIGTERM) == 0) {
        printf("向线程 %d 发送终止信号\n", threads[2].tid);
        pthread_mutex_lock(&mutex);
        threads[2].running = 0;
        pthread_mutex_unlock(&mutex);
    }
    
    sleep(2);
    show_thread_status();
    
    // 向所有线程发送中断信号
    printf("向所有线程发送中断信号...\n");
    pthread_mutex_lock(&mutex);
    for(i = 0; i < MAX_THREADS; i++) {
        if(threads[i].tid != 0 && threads[i].running) {
            if(tgkill(getpid(), threads[i].tid, SIGINT) == 0) {
                printf("向线程 %d 发送中断信号\n", threads[i].tid);
            }
        }
    }
    pthread_mutex_unlock(&mutex);
    
    sleep(2);
    
    // 等待所有线程结束
    for(i = 0; i < MAX_THREADS; i++) {
        if(threads[i].tid != 0) {
            pthread_join(threads[i].thread, NULL);
            printf("线程 %d 已结束\n", threads[i].id);
        }
    }
    
    printf("所有线程已安全退出，程序结束\n");
    return 0;
}

示例3：错误处理和权限检查

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/syscall.h>
#include <signal.h>
#include <errno.h>
#include <string.h>

// tgkill封装函数
int tgkill(int tgid, int tid, int sig) {
    return syscall(SYS_tgkill, tgid, tid, sig);
}

// 错误处理函数
void handle_error(const char* operation) {
    switch(errno) {
        case EINVAL:
            printf("%s 失败: 无效的信号编号\n", operation);
            break;
        case ESRCH:
            printf("%s 失败: 找不到指定的线程或进程\n", operation);
            break;
        case EPERM:
            printf("%s 失败: 权限不足\n", operation);
            break;
        default:
            printf("%s 失败: %s\n", operation, strerror(errno));
            break;
    }
}

int main() {
    pid_t my_pid = getpid();
    pid_t my_tid = syscall(SYS_gettid);
    
    printf("当前进程信息:\n");
    printf("  进程ID (PID): %d\n", my_pid);
    printf("  线程ID (TID): %d\n", my_tid);
    printf("  用户ID (UID): %d\n", getuid());
    printf("  有效用户ID (EUID): %d\n", geteuid());
    printf("\n");
    
    // 测试1: 向自己发送信号（应该成功）
    printf("=== 测试1: 向当前线程发送信号 ===\n");
    if(tgkill(my_pid, my_tid, SIGUSR1) == 0) {
        printf("✓ 成功向当前线程发送信号\n");
    } else {
        handle_error("向当前线程发送信号");
    }
    
    // 测试2: 使用无效信号编号
    printf("\n=== 测试2: 使用无效信号编号 ===\n");
    if(tgkill(my_pid, my_tid, 999) == -1) {
        handle_error("使用无效信号");
    }
    
    // 测试3: 向不存在的进程发送信号
    printf("\n=== 测试3: 向不存在的进程发送信号 ===\n");
    if(tgkill(999999, 999999, SIGTERM) == -1) {
        handle_error("向不存在的进程发送信号");
    }
    
    // 测试4: 向不存在的线程发送信号
    printf("\n=== 测试4: 向不存在的线程发送信号 ===\n");
    if(tgkill(my_pid, 999999, SIGTERM) == -1) {
        handle_error("向不存在的线程发送信号");
    }
    
    // 测试5: 发送各种标准信号
    printf("\n=== 测试5: 发送标准信号 ===\n");
    int signals[] = {SIGHUP, SIGINT, SIGQUIT, SIGUSR1, SIGUSR2};
    const char* signal_names[] = {"SIGHUP", "SIGINT", "SIGQUIT", "SIGUSR1", "SIGUSR2"};
    int num_signals = sizeof(signals) / sizeof(signals[0]);
    
    for(int i = 0; i < num_signals; i++) {
        printf("发送 %s (信号 %d)... ", signal_names[i], signals[i]);
        if(tgkill(my_pid, my_tid, signals[i]) == 0) {
            printf("成功\n");
        } else {
            printf("失败\n");
        }
    }
    
    printf("\n=== 完成所有测试 ===\n");
    printf("注意: 某些信号可能被系统忽略或有特殊处理\n");
    
    return 0;
}

编译和运行

# 编译示例1（需要链接pthread库）
gcc -o tgkill_example1 tgkill_example1.c -lpthread
./tgkill_example1

# 编译示例2
gcc -o tgkill_example2 tgkill_example2.c -lpthread
./tgkill_example2

# 编译示例3
gcc -o tgkill_example3 tgkill_example3.c
./tgkill_example3

重要注意事项

权限要求: tgkill需要适当的权限才能向目标线程发送信号
线程ID获取: 需要在线程内部调用syscall(SYS_gettid)获取真实的线程ID
错误处理: 必须检查返回值并适当处理错误
信号安全: 在信号处理函数中只能调用异步信号安全的函数
跨平台兼容性: tgkill是Linux特有的系统调用，不适用于其他操作系统

通过这些示例，你可以理解tgkill在精确线程控制方面的强大功能，它为多线程程序提供了精细化的控制能力。

发表在 linux文章 | 留下评论

timerfd_create, timerfd_gettime, timerfd_settime系统调用及示例

发表于2025-08-08由麦芽爸

好的，我们来深入学习 timerfd 相关的系统调用 (timerfd_create, timerfd_gettime, timerfd_settime)

1. 函数介绍

在 Linux 系统编程中，处理定时事件是一个常见需求。传统的定时方法包括：

alarm() 和 setitimer() + 信号 (SIGALRM)：当定时器到期时，内核会发送一个信号给进程。这属于异步通知方式。信号处理函数有诸多限制（只能调用异步安全函数），并且容易引入竞态条件。
sleep() 系列函数：让进程休眠指定时间。这会阻塞进程，不够灵活。

timerfd 是 Linux 2.6.25 引入的一种基于文件描述符 (File Descriptor) 的定时器接口。它巧妙地将定时器“变成”了一个可以像文件一样操作的描述符。

你调用 timerfd_create() 创建一个定时器，它会返回一个文件描述符。
你调用 timerfd_settime() 来启动或修改这个定时器的超时时间和间隔。
当定时器到期时，这个文件描述符就会变为可读状态。
你可以在程序的主循环中使用 read()、poll()、select() 或 epoll_wait() 等 I/O 多路复用函数来监听这个文件描述符。当 read() 成功时，就意味着定时器超时了。

简单来说，timerfd 就是把定时器“变成”了可以像文件一样读取的数据流，让你可以用处理文件 I/O 或网络 I/O 的方式来处理定时事件。

典型应用场景：

事件驱动服务器：将定时器集成到 epoll/poll 的主循环中，统一处理网络 I/O 和定时事件。
避免信号处理的复杂性：用同步的 read() 替代异步的信号处理函数。
精确控制定时：可以创建一次性定时器或周期性定时器。

2. 函数原型

#include <sys/timerfd.h> // 包含 timerfd 相关函数和结构体

// 创建一个定时器并返回文件描述符
int timerfd_create(int clockid, int flags);

// 获取定时器的当前设置
int timerfd_gettime(int fd, struct itimerspec *curr_value);

// 启动或重新设置定时器
int timerfd_settime(int fd, int flags, const struct itimerspec *new_value, struct itimerspec *old_value);

3. 功能

timerfd_create: 创建一个新的定时器对象，并返回一个与之关联的文件描述符。
timerfd_gettime: 查询指定定时器文件描述符的当前定时设置（下次超时时间和间隔）。
timerfd_settime: 启动、停止或修改指定定时器文件描述符的定时设置。

4. 参数详解

`timerfd_create(int clockid, int flags)`

clockid:
- int 类型。
- 指定定时器基于哪个时钟源。常用的有：
  - CLOCK_REALTIME: 系统实时时钟，表示从 Unix 纪元（1970-01-01 00:00:00 UTC）开始的时间。如果系统时间被手动修改，这个时钟会受到影响。
  - CLOCK_MONOTONIC: 单调时钟，表示从某个未指定起点开始的时间，不会受到系统时间调整的影响，是测量间隔的首选。
flags:
- int 类型。
- 用于修改定时器行为的标志位。常用的有：
  - TFD_CLOEXEC: 在执行 exec() 系列函数时自动关闭该文件描述符。
  - TFD_NONBLOCK: 使 read() 操作变为非阻塞模式。如果当前没有定时器到期事件可读，read() 会立即返回 -1 并设置 errno 为 EAGAIN 或 EWOULDBLOCK。
返回值:
- 成功: 返回一个有效的定时器文件描述符（非负整数）。
- 失败: 返回 -1，并设置 errno。

`timerfd_gettime(int fd, struct itimerspec *curr_value)`

fd:
- int 类型。
- 一个有效的定时器文件描述符。
curr_value:
- struct itimerspec * 类型。
- 一个指向 struct itimerspec 结构体的指针。函数调用成功后，会将定时器的当前设置填充到这个结构体中。
返回值:
- 成功: 返回 0。
- 失败: 返回 -1，并设置 errno。

`timerfd_settime(int fd, int flags, const struct itimerspec new_value, struct itimerspec old_value)`

fd:
- int 类型。
- 一个有效的定时器文件描述符。
flags:
- int 类型。
- 控制 new_value 中时间的解释方式。主要标志：
  - 0 (默认): new_value->it_value 指定的是从当前时间点开始的相对超时时间。
  - TFD_TIMER_ABSTIME: new_value->it_value 指定的是一个绝对的超时时间点（基于创建定时器时指定的 clockid）。
new_value:
- const struct itimerspec * 类型。
- 指向一个 struct itimerspec 结构体，定义了新的定时器设置。
old_value:
- struct itimerspec * 类型。
- 如果不为 NULL，函数调用成功后，会将定时器在设置前的旧设置填充到这个结构体中。如果不需要旧值，可以传 NULL。
返回值:
- 成功: 返回 0。
- 失败: 返回 -1，并设置 errno。

`struct itimerspec` 结构体

这个结构体用于定义定时器的时间设置：

struct timespec {
    time_t tv_sec;  /* 秒 */
    long   tv_nsec; /* 纳秒 */
};

struct itimerspec {
    struct timespec it_interval; /* 定时器的时间间隔 (周期性定时器) */
    struct timespec it_value;    /* 首次超时的相对/绝对时间 */
};

it_value: 指定首次超时的时间。
- 如果 tv_sec 和 tv_nsec 都为 0，则定时器被停止。
- 如果非 0，则指定定时器下次到期的时间。
it_interval: 指定定时器到期后，重复的间隔时间。
- 如果 tv_sec 和 tv_nsec 都为 0，则定时器是一次性的。
- 如果非 0，则定时器在首次到期后，会按此间隔周期性地重复到期。

5. 如何使用定时器文件描述符

创建: 使用 timerfd_create() 创建定时器，获得 fd。
设置: 使用 timerfd_settime() 配置定时器的超时和间隔。
等待: 在主循环中，使用 poll(), select(), epoll_wait() 或直接 read() (如果设置为阻塞) 来等待 fd 变为可读。
读取: 当 fd 可读时，调用 read(fd, &expirations, sizeof(expirations))。read() 会成功，并且读取到一个 uint64_t 类型的整数，表示自上次 read() 以来定时器到期的次数。
查询/修改: 可以随时使用 timerfd_gettime() 查询当前设置，或再次调用 timerfd_settime() 修改设置。

6. 错误码 (`errno`)

这些函数共享一些常见的错误码：

EINVAL: 参数无效（例如 clockid 无效，flags 无效，itimerspec 字段值无效）。
EMFILE: 进程已打开的文件描述符数量达到上限 (RLIMIT_NOFILE)。
ENFILE: 系统已打开的文件描述符数量达到上限。
ENOMEM: 内核内存不足。
EBADF: fd 不是有效的文件描述符。
EFAULT: new_value, old_value, 或 curr_value 指向无效内存。

7. 相似函数或关联函数

alarm / setitimer: 传统的基于信号的定时器。
poll, select, epoll_wait: I/O 多路复用函数，可以监听 timerfd 文件描述符的可读事件。
read: 用于从 timerfd 中读取到期次数。
close: 关闭 timerfd 文件描述符。
clock_gettime / clock_settime: 获取和设置不同类型的系统时钟。
POSIX 定时器 (timer_create, timer_settime, timer_gettime): 另一套定时器 API，也使用信号通知。

8. 示例代码

下面的示例演示了如何使用 timerfd 创建一次性定时器和周期性定时器，并将其集成到 poll 系统调用中。

#define _GNU_SOURCE // 启用 GNU 扩展
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/timerfd.h> // timerfd 相关
#include <poll.h>       // poll 相关
#include <string.h>
#include <errno.h>
#include <inttypes.h>   // 包含 PRIu64 宏，用于 printf uint64_t

// 辅助函数：打印 itimerspec 结构
void print_itimerspec(const char* prefix, const struct itimerspec *ts) {
    printf("%s: ", prefix);
    if (ts->it_value.tv_sec == 0 && ts->it_value.tv_nsec == 0) {
        printf("Timer is STOPPED\n");
    } else {
        printf("Next expiration in %ld.%09ld seconds\n", ts->it_value.tv_sec, ts->it_value.tv_nsec);
    }
    printf("     Interval: %ld.%09ld seconds\n", ts->it_interval.tv_sec, ts->it_interval.tv_nsec);
}

int main() {
    int tfd_one_shot, tfd_periodic;
    struct itimerspec one_shot_time, periodic_time;
    struct pollfd fds[3]; // 监听两个 timerfd 和 标准输入
    uint64_t expirations;
    ssize_t s;

    printf("--- Demonstrating timerfd ---\n");
    printf("PID: %d\n", getpid());

    // 1. 创建两个 timerfd
    // 一次性定时器，基于单调时钟
    tfd_one_shot = timerfd_create(CLOCK_MONOTONIC, TFD_CLOEXEC);
    if (tfd_one_shot == -1) {
        perror("timerfd_create one-shot");
        exit(EXIT_FAILURE);
    }
    printf("Created one-shot timerfd: %d\n", tfd_one_shot);

    // 周期性定时器，基于单调时钟，非阻塞
    tfd_periodic = timerfd_create(CLOCK_MONOTONIC, TFD_CLOEXEC | TFD_NONBLOCK);
    if (tfd_periodic == -1) {
        perror("timerfd_create periodic");
        close(tfd_one_shot);
        exit(EXIT_FAILURE);
    }
    printf("Created periodic timerfd: %d (non-blocking)\n", tfd_periodic);

    // 2. 设置一次性定时器：3秒后到期
    one_shot_time.it_value.tv_sec = 3;     // 3 秒后
    one_shot_time.it_value.tv_nsec = 0;
    one_shot_time.it_interval.tv_sec = 0;  // 一次性，不重复
    one_shot_time.it_interval.tv_nsec = 0;
    if (timerfd_settime(tfd_one_shot, 0, &one_shot_time, NULL) == -1) {
        perror("timerfd_settime one-shot");
        close(tfd_one_shot);
        close(tfd_periodic);
        exit(EXIT_FAILURE);
    }
    printf("Set one-shot timer to expire in 3 seconds.\n");

    // 3. 设置周期性定时器：立即启动，每 2 秒重复一次
    periodic_time.it_value.tv_sec = 0;     // 立即启动
    periodic_time.it_value.tv_nsec = 1;    // 纳秒设为1，确保立即触发第一次
    periodic_time.it_interval.tv_sec = 2;  // 每 2 秒重复
    periodic_time.it_interval.tv_nsec = 0;
    if (timerfd_settime(tfd_periodic, 0, &periodic_time, NULL) == -1) {
        perror("timerfd_settime periodic");
        close(tfd_one_shot);
        close(tfd_periodic);
        exit(EXIT_FAILURE);
    }
    printf("Set periodic timer to start immediately and repeat every 2 seconds.\n");

    // 4. 查询并打印初始定时器状态
    struct itimerspec curr_time;
    if (timerfd_gettime(tfd_one_shot, &curr_time) == 0) {
        print_itimerspec("One-shot timer initial state", &curr_time);
    }
    if (timerfd_gettime(tfd_periodic, &curr_time) == 0) {
        print_itimerspec("Periodic timer initial state", &curr_time);
    }

    // 5. 设置 poll 的文件描述符数组
    fds[0].fd = tfd_one_shot;
    fds[0].events = POLLIN;
    fds[1].fd = tfd_periodic;
    fds[1].events = POLLIN;
    fds[2].fd = STDIN_FILENO;
    fds[2].events = POLLIN;

    printf("\nEntering main loop. Waiting for timers or input (type 'quit' to exit)...\n");

    // 6. 主循环：使用 poll 等待事件
    int one_shot_done = 0;
    while (!one_shot_done) { // 循环直到一次性定时器完成
        int poll_num = poll(fds, 3, -1); // -1 表示无限期等待
        if (poll_num == -1) {
            if (errno == EINTR) {
                continue; // poll 被信号中断，继续等待
            } else {
                perror("poll");
                break;
            }
        }

        if (poll_num > 0) {
            // 检查一次性定时器
            if (fds[0].revents & POLLIN) {
                s = read(tfd_one_shot, &expirations, sizeof(expirations));
                if (s == sizeof(expirations)) {
                    printf("\n[ONE-SHOT TIMER] Expired! Expirations counted: %" PRIu64 "\n", expirations);
                    one_shot_done = 1; // 设置标志退出循环

                    // 再次查询状态，确认已停止
                    if (timerfd_gettime(tfd_one_shot, &curr_time) == 0) {
                        print_itimerspec("One-shot timer final state", &curr_time);
                    }
                } else {
                    perror("read one-shot timerfd");
                }
            }

            // 检查周期性定时器
            if (fds[1].revents & POLLIN) {
                s = read(tfd_periodic, &expirations, sizeof(expirations));
                if (s == sizeof(expirations)) {
                    printf("\n[PERIODIC TIMER] Expired! Expirations counted: %" PRIu64 "\n", expirations);
                    // 可以在这里处理周期性任务
                } else if (s == -1) {
                    if (errno != EAGAIN && errno != EWOULDBLOCK) {
                         perror("read periodic timerfd"); // 非 EAGAIN 的错误
                    } // EAGAIN/EWOULDBLOCK 是正常的，因为我们设置了 NONBLOCK
                }
            }

            // 检查标准输入
            if (fds[2].revents & POLLIN) {
                char buf[16];
                ssize_t nread = read(STDIN_FILENO, buf, sizeof(buf) - 1);
                if (nread > 0) {
                    buf[nread] = '\0';
                    printf("Read from stdin: %s", buf);
                    if (strncmp(buf, "quit\n", 5) == 0) {
                        printf("Exiting due to 'quit' command.\n");
                        break;
                    }
                } else if (nread == 0) {
                    printf("EOF on stdin (Ctrl+D). Exiting.\n");
                    break;
                }
            }
        }
    }

    // 7. 清理资源
    printf("\nClosing timerfds...\n");
    close(tfd_one_shot);
    close(tfd_periodic);
    printf("Program finished.\n");

    return 0;
}

9. 编译和运行

# 假设代码保存在 timerfd_example.c 中
gcc -o timerfd_example timerfd_example.c

# 运行程序
./timerfd_example
# 程序会启动定时器，并在终端输出信息。
# 等待 3 秒后一次性定时器触发。
# 每 2 秒周期性定时器会触发。
# 输入 'quit' 并回车可以退出。

10. 预期输出

--- Demonstrating timerfd ---
PID: 12345
Created one-shot timerfd: 3
Created periodic timerfd: 4 (non-blocking)
Set one-shot timer to expire in 3 seconds.
Set periodic timer to start immediately and repeat every 2 seconds.
One-shot timer initial state: Next expiration in 2.999999000 seconds
     Interval: 0.000000000 seconds
Periodic timer initial state: Next expiration in 0.000000001 seconds
     Interval: 2.000000000 seconds

Entering main loop. Waiting for timers or input (type 'quit' to exit)...

[PERIODIC TIMER] Expired! Expirations counted: 1

[PERIODIC TIMER] Expired! Expirations counted: 1

[ONE-SHOT TIMER] Expired! Expirations counted: 1
One-shot timer final state: Timer is STOPPED

[PERIODIC TIMER] Expired! Expirations counted: 1
...
# (继续每2秒打印，直到输入 'quit')
Read from stdin: quit
Exiting due to 'quit' command.

Closing timerfds...
Program finished.

11. 总结

timerfd 提供了一种现代化、同步化、且易于与事件驱动模型集成的定时器机制。

核心优势：将定时事件转换为文件描述符的可读事件，可以方便地融入 poll/select/epoll 等 I/O 多路复用框架。
避免信号：解决了传统信号定时器的异步处理复杂性和竞态条件问题。
灵活配置：通过 timerfd_settime 可以轻松创建一次性或周期性定时器，并支持相对和绝对时间。
信息丰富：read() 返回的到期次数 (uint64_t) 可以帮助处理定时器“堆积”（例如程序忙于处理其他任务导致多次到期）的情况。

掌握 timerfd 对于编写高性能、事件驱动的 Linux 应用程序（尤其是服务器）非常有帮助。

1. 函数介绍

2. 函数原型

3. 功能

4. 参数详解

`timerfd_create(int clockid, int flags)`

`timerfd_gettime(int fd, struct itimerspec *curr_value)`

`timerfd_settime(int fd, int flags, const struct itimerspec new_value, struct itimerspec old_value)`

`struct itimerspec` 结构体

5. 如何使用定时器文件描述符

6. 错误码 (`errno`)

7. 相似函数或关联函数

8. 示例代码

9. 编译和运行

10. 预期输出

11. 总结

发表在 linux文章 | 留下评论

times系统调用及示例

发表于2025-08-08由麦芽爸

times 函数详解

1. 函数介绍

times 是POSIX标准函数，用于获取进程及其子进程的CPU时间统计信息。它返回自系统启动以来进程在用户态和内核态消耗的CPU时间，以及所有已终止子进程的CPU时间统计。这对于性能分析、资源监控和系统管理非常有用。

2. 函数原型

#include <sys/times.h>
clock_t times(struct tms *buf);

3. 功能

times 函数获取当前进程的CPU时间使用情况，包括用户态CPU时间、系统态CPU时间，以及所有已终止子进程的相应时间。这些信息对于进程性能分析和资源管理至关重要。

4. 参数

*struct tms buf: 指向tms结构体的指针，用于存储时间统计信息

5. 返回值

成功: 返回自系统启动以来的滴答数（ticks）
失败: 返回(clock_t)-1，并设置errno

6. 相似函数，或关联函数

clock: 获取进程CPU时间
getrusage: 获取资源使用情况
time/clock_gettime: 获取系统时间
wait/waitpid: 等待子进程并获取其资源使用情况

7. 示例代码

示例1：基础times使用

#include <sys/times.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <sys/wait.h>

/**
 * 显示CPU时间统计
 */
void show_cpu_times(const struct tms *tms_buf, clock_t ticks) {
    long clk_tck = sysconf(_SC_CLK_TCK);  // 获取每秒滴答数
    
    printf("CPU时间统计:\n");
    printf("  用户态时间: %jd 滴答 (%.3f 秒)\n", 
           (intmax_t)tms_buf->tms_utime, 
           (double)tms_buf->tms_utime / clk_tck);
    printf("  系统态时间: %jd 滴答 (%.3f 秒)\n", 
           (intmax_t)tms_buf->tms_stime, 
           (double)tms_buf->tms_stime / clk_tck);
    printf("  子进程用户态时间: %jd 滴答 (%.3f 秒)\n", 
           (intmax_t)tms_buf->tms_cutime, 
           (double)tms_buf->tms_cutime / clk_tck);
    printf("  子进程系统态时间: %jd 滴答 (%.3f 秒)\n", 
           (intmax_t)tms_buf->tms_cstime, 
           (double)tms_buf->tms_cstime / clk_tck);
    printf("  总滴答数: %jd\n", (intmax_t)ticks);
    printf("  系统滴答率: %ld 滴答/秒\n", clk_tck);
}

/**
 * 演示基础times使用方法
 */
int demo_times_basic() {
    struct tms tms_start, tms_end;
    clock_t start_ticks, end_ticks;
    long clk_tck;
    
    printf("=== 基础times使用示例 ===\n");
    
    // 获取系统滴答率
    clk_tck = sysconf(_SC_CLK_TCK);
    if (clk_tck == -1) {
        perror("获取系统滴答率失败");
        return -1;
    }
    
    printf("系统滴答率: %ld 滴答/秒\n", clk_tck);
    
    // 获取初始时间统计
    start_ticks = times(&tms_start);
    if (start_ticks == (clock_t)-1) {
        perror("获取初始时间统计失败");
        return -1;
    }
    
    printf("\n1. 初始时间统计:\n");
    show_cpu_times(&tms_start, start_ticks);
    
    // 执行一些CPU密集型操作
    printf("\n2. 执行CPU密集型操作...\n");
    
    volatile long sum = 0;
    for (long i = 0; i < 100000000; i++) {
        sum += i * i;
        if (i % 20000000 == 0) {
            printf("  进度: %ld%%\n", i / 1000000);
        }
    }
    
    printf("  计算结果: %ld\n", sum);
    
    // 获取结束时间统计
    end_ticks = times(&tms_end);
    if (end_ticks == (clock_t)-1) {
        perror("获取结束时间统计失败");
        return -1;
    }
    
    printf("\n3. 结束时间统计:\n");
    show_cpu_times(&tms_end, end_ticks);
    
    // 计算时间差
    printf("\n4. 时间差统计:\n");
    clock_t ticks_diff = end_ticks - start_ticks;
    clock_t utime_diff = tms_end.tms_utime - tms_start.tms_utime;
    clock_t stime_diff = tms_end.tms_stime - tms_start.tms_stime;
    
    printf("  消耗滴答数: %jd\n", (intmax_t)ticks_diff);
    printf("  用户态时间差: %jd 滴答 (%.3f 秒)\n", 
           (intmax_t)utime_diff, (double)utime_diff / clk_tck);
    printf("  系统态时间差: %jd 滴答 (%.3f 秒)\n", 
           (intmax_t)stime_diff, (double)stime_diff / clk_tck);
    printf("  总CPU时间: %.3f 秒\n", 
           (double)(utime_diff + stime_diff) / clk_tck);
    
    // 计算CPU使用率
    if (ticks_diff > 0) {
        double cpu_utilization = (double)(utime_diff + stime_diff) / ticks_diff * 100;
        printf("  CPU使用率: %.2f%%\n", cpu_utilization);
    }
    
    return 0;
}

int main() {
    return demo_times_basic();
}

示例2：父子进程CPU时间统计

#include <sys/times.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <sys/wait.h>
#include <time.h>

/**
 * 子进程工作函数
 */
void child_work(int child_id, int work_duration) {
    printf("子进程 %d (PID: %d) 启动\n", child_id, getpid());
    
    struct tms tms_start, tms_current;
    clock_t start_ticks, current_ticks;
    long clk_tck = sysconf(_SC_CLK_TCK);
    
    start_ticks = times(&tms_start);
    
    // 执行工作
    volatile long sum = 0;
    time_t start_time = time(NULL);
    
    while (difftime(time(NULL), start_time) < work_duration) {
        // CPU密集型工作
        for (int i = 0; i < 1000000; i++) {
            sum += i;
        }
        
        // 定期报告进度
        if (difftime(time(NULL), start_time) > 0 && 
            fmod(difftime(time(NULL), start_time), 1.0) < 0.1) {
            current_ticks = times(&tms_current);
            if (current_ticks != (clock_t)-1) {
                clock_t utime_diff = tms_current.tms_utime - tms_start.tms_utime;
                printf("  子进程 %d: 用户态时间 %.3f 秒\n", 
                       child_id, (double)utime_diff / clk_tck);
            }
        }
    }
    
    printf("子进程 %d 完成，计算结果: %ld\n", child_id, sum);
    exit(child_id);
}

/**
 * 演示父子进程CPU时间统计
 */
int demo_parent_child_times() {
    struct tms tms_before, tms_after;
    clock_t ticks_before, ticks_after;
    pid_t children[3];
    int child_count = 3;
    long clk_tck = sysconf(_SC_CLK_TCK);
    
    printf("=== 父子进程CPU时间统计演示 ===\n");
    printf("系统滴答率: %ld 滴答/秒\n", clk_tck);
    
    // 获取父进程初始时间统计
    ticks_before = times(&tms_before);
    if (ticks_before == (clock_t)-1) {
        perror("获取初始时间统计失败");
        return -1;
    }
    
    printf("\n1. 父进程初始时间统计:\n");
    printf("  父进程用户态时间: %.3f 秒\n", 
           (double)tms_before.tms_utime / clk_tck);
    printf("  父进程系统态时间: %.3f 秒\n", 
           (double)tms_before.tms_stime / clk_tck);
    printf("  子进程累计时间: %.3f 秒 (用户态) + %.3f 秒 (系统态)\n",
           (double)tms_before.tms_cutime / clk_tck,
           (double)tms_before.tms_cstime / clk_tck);
    
    // 创建子进程
    printf("\n2. 创建子进程:\n");
    for (int i = 0; i < child_count; i++) {
        children[i] = fork();
        if (children[i] == 0) {
            // 子进程
            child_work(i + 1, 3 + i);  // 不同持续时间
        } else if (children[i] > 0) {
            printf("  创建子进程 %d: PID=%d\n", i + 1, children[i]);
        } else {
            perror("创建子进程失败");
            // 清理已创建的子进程
            for (int j = 0; j < i; j++) {
                kill(children[j], SIGKILL);
            }
            return -1;
        }
    }
    
    // 父进程等待子进程完成
    printf("\n3. 父进程等待子进程完成:\n");
    int completed_children = 0;
    
    while (completed_children < child_count) {
        int status;
        pid_t finished_pid = wait(&status);
        if (finished_pid > 0) {
            completed_children++;
            printf("  子进程 %d (PID=%d) 已完成，退出状态: %d\n", 
                   WEXITSTATUS(status), finished_pid, WEXITSTATUS(status));
        } else if (finished_pid == -1) {
            if (errno != EINTR) {
                perror("等待子进程失败");
                break;
            }
        }
    }
    
    // 获取父进程结束时间统计
    ticks_after = times(&tms_after);
    if (ticks_after == (clock_t)-1) {
        perror("获取结束时间统计失败");
        return -1;
    }
    
    printf("\n4. 父进程结束时间统计:\n");
    printf("  父进程用户态时间: %.3f 秒\n", 
           (double)tms_after.tms_utime / clk_tck);
    printf("  父进程系统态时间: %.3f 秒\n", 
           (double)tms_after.tms_stime / clk_tck);
    printf("  子进程累计时间: %.3f 秒 (用户态) + %.3f 秒 (系统态)\n",
           (double)tms_after.tms_cutime / clk_tck,
           (double)tms_after.tms_cstime / clk_tck);
    
    // 计算差异
    printf("\n5. 父子进程时间差异分析:\n");
    clock_t parent_utime_diff = tms_after.tms_utime - tms_before.tms_utime;
    clock_t parent_stime_diff = tms_after.tms_stime - tms_before.tms_stime;
    clock_t children_utime_diff = tms_after.tms_cutime - tms_before.tms_cutime;
    clock_t children_stime_diff = tms_after.tms_cstime - tms_before.tms_cstime;
    
    printf("  父进程CPU时间: %.3f 秒 (用户态) + %.3f 秒 (系统态) = %.3f 秒\n",
           (double)parent_utime_diff / clk_tck,
           (double)parent_stime_diff / clk_tck,
           (double)(parent_utime_diff + parent_stime_diff) / clk_tck);
    
    printf("  子进程CPU时间: %.3f 秒 (用户态) + %.3f 秒 (系统态) = %.3f 秒\n",
           (double)children_utime_diff / clk_tck,
           (double)children_stime_diff / clk_tck,
           (double)(children_utime_diff + children_stime_diff) / clk_tck);
    
    printf("  总CPU时间: %.3f 秒\n",
           (double)(parent_utime_diff + parent_stime_diff + 
                   children_utime_diff + children_stime_diff) / clk_tck);
    
    // 总体统计
    clock_t total_ticks = ticks_after - ticks_before;
    if (total_ticks > 0) {
        double total_cpu_time = (double)(parent_utime_diff + parent_stime_diff + 
                                       children_utime_diff + children_stime_diff) / clk_tck;
        double wall_clock_time = (double)total_ticks / clk_tck;
        double cpu_utilization = total_cpu_time / wall_clock_time * 100;
        
        printf("\n6. 总体性能统计:\n");
        printf("  墙钟时间: %.3f 秒\n", wall_clock_time);
        printf("  CPU时间: %.3f 秒\n", total_cpu_time);
        printf("  CPU利用率: %.2f%%\n", cpu_utilization);
        printf("  并行效率: %.2f%%\n", cpu_utilization / child_count);
    }
    
    return 0;
}

int main() {
    return demo_parent_child_times();
}

示例3：性能分析工具

#include <sys/times.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <sys/wait.h>
#include <time.h>
#include <math.h>

/**
 * 性能分析结果结构
 */
typedef struct {
    clock_t start_ticks;
    clock_t end_ticks;
    struct tms start_tms;
    struct tms end_tms;
    double wall_time_seconds;
    double cpu_time_seconds;
    double user_time_seconds;
    double system_time_seconds;
    double children_user_time_seconds;
    double children_system_time_seconds;
    double cpu_utilization_percent;
} performance_analysis_t;

/**
 * 初始化性能分析
 */
int init_performance_analysis(performance_analysis_t *analysis) {
    analysis->start_ticks = times(&analysis->start_tms);
    if (analysis->start_ticks == (clock_t)-1) {
        perror("初始化性能分析失败");
        return -1;
    }
    
    return 0;
}

/**
 * 完成性能分析
 */
int finish_performance_analysis(performance_analysis_t *analysis) {
    long clk_tck = sysconf(_SC_CLK_TCK);
    
    analysis->end_ticks = times(&analysis->end_tms);
    if (analysis->end_ticks == (clock_t)-1) {
        perror("完成性能分析失败");
        return -1;
    }
    
    // 计算各种时间统计
    clock_t ticks_diff = analysis->end_ticks - analysis->start_ticks;
    clock_t utime_diff = analysis->end_tms.tms_utime - analysis->start_tms.tms_utime;
    clock_t stime_diff = analysis->end_tms.tms_stime - analysis->start_tms.tms_stime;
    clock_t cutime_diff = analysis->end_tms.tms_cutime - analysis->start_tms.tms_cutime;
    clock_t cstime_diff = analysis->end_tms.tms_cstime - analysis->start_tms.tms_cstime;
    
    analysis->wall_time_seconds = (double)ticks_diff / clk_tck;
    analysis->user_time_seconds = (double)utime_diff / clk_tck;
    analysis->system_time_seconds = (double)stime_diff / clk_tck;
    analysis->children_user_time_seconds = (double)cutime_diff / clk_tck;
    analysis->children_system_time_seconds = (double)cstime_diff / clk_tck;
    analysis->cpu_time_seconds = analysis->user_time_seconds + analysis->system_time_seconds +
                                 analysis->children_user_time_seconds + analysis->children_system_time_seconds;
    
    if (ticks_diff > 0) {
        analysis->cpu_utilization_percent = (analysis->cpu_time_seconds / 
                                           analysis->wall_time_seconds) * 100;
    } else {
        analysis->cpu_utilization_percent = 0.0;
    }
    
    return 0;
}

/**
 * 显示性能分析结果
 */
void show_performance_analysis(const performance_analysis_t *analysis) {
    printf("=== 性能分析报告 ===\n");
    printf("时间统计:\n");
    printf("  墙钟时间: %.3f 秒\n", analysis->wall_time_seconds);
    printf("  用户态时间: %.3f 秒\n", analysis->user_time_seconds);
    printf("  系统态时间: %.3f 秒\n", analysis->system_time_seconds);
    printf("  子进程用户态时间: %.3f 秒\n", analysis->children_user_time_seconds);
    printf("  子进程系统态时间: %.3f 秒\n", analysis->children_system_time_seconds);
    printf("  总CPU时间: %.3f 秒\n", analysis->cpu_time_seconds);
    printf("  CPU利用率: %.2f%%\n", analysis->cpu_utilization_percent);
    
    // 详细分解
    printf("\n详细分解:\n");
    if (analysis->wall_time_seconds > 0) {
        printf("  用户态占比: %.1f%%\n", 
               (analysis->user_time_seconds / analysis->wall_time_seconds) * 100);
        printf("  系统态占比: %.1f%%\n", 
               (analysis->system_time_seconds / analysis->wall_time_seconds) * 100);
        printf("  子进程用户态占比: %.1f%%\n", 
               (analysis->children_user_time_seconds / analysis->wall_time_seconds) * 100);
        printf("  子进程系统态占比: %.1f%%\n", 
               (analysis->children_system_time_seconds / analysis->wall_time_seconds) * 100);
    }
}

/**
 * CPU密集型测试函数
 */
void cpu_intensive_test(const char *test_name, int iterations) {
    printf("执行CPU密集型测试: %s (%d 次迭代)\n", test_name, iterations);
    
    volatile double result = 0.0;
    for (int i = 0; i < iterations; i++) {
        // 执行数学计算
        for (int j = 1; j <= 1000; j++) {
            result += sin(j * 0.001) * cos(j * 0.001);
        }
        
        // 定期显示进度
        if (i > 0 && i % (iterations / 10) == 0) {
            printf("  %s 进度: %d%%\n", test_name, (i * 100) / iterations);
        }
    }
    
    printf("  %s 完成，结果: %.6f\n", test_name, result);
}

/**
 * I/O密集型测试函数
 */
void io_intensive_test(const char *test_name, int file_count) {
    printf("执行I/O密集型测试: %s (%d 个文件)\n", test_name, file_count);
    
    for (int i = 0; i < file_count; i++) {
        char filename[64];
        snprintf(filename, sizeof(filename), "/tmp/io_test_%s_%d.tmp", test_name, i);
        
        // 创建并写入文件
        FILE *fp = fopen(filename, "w");
        if (fp) {
            for (int j = 0; j < 1000; j++) {
                fprintf(fp, "测试数据行 %d.%d\n", i, j);
            }
            fclose(fp);
        }
        
        // 读取文件
        fp = fopen(filename, "r");
        if (fp) {
            char buffer[256];
            while (fgets(buffer, sizeof(buffer), fp)) {
                // 简单处理读取的数据
                volatile int dummy = strlen(buffer);
            }
            fclose(fp);
        }
        
        // 删除临时文件
        unlink(filename);
        
        if (i > 0 && i % (file_count / 10) == 0) {
            printf("  %s 进度: %d%%\n", test_name, (i * 100) / file_count);
        }
    }
    
    printf("  %s 完成\n", test_name);
}

/**
 * 演示性能分析工具
 */
int demo_performance_analyzer() {
    performance_analysis_t analysis;
    long clk_tck = sysconf(_SC_CLK_TCK);
    
    printf("=== 性能分析工具演示 ===\n");
    printf("系统滴答率: %ld 滴答/秒\n", clk_tck);
    
    // 初始化性能分析
    if (init_performance_analysis(&analysis) != 0) {
        return -1;
    }
    
    printf("\n开始性能测试...\n");
    
    // 测试1: CPU密集型操作
    printf("\n1. CPU密集型测试:\n");
    cpu_intensive_test("CPU测试1", 5000);
    
    // 测试2: I/O密集型操作
    printf("\n2. I/O密集型测试:\n");
    io_intensive_test("I/O测试1", 50);
    
    // 测试3: 混合操作
    printf("\n3. 混合操作测试:\n");
    for (int i = 0; i < 5; i++) {
        cpu_intensive_test("混合CPU测试", 1000);
        io_intensive_test("混合I/O测试", 10);
    }
    
    // 完成性能分析
    if (finish_performance_analysis(&analysis) != 0) {
        return -1;
    }
    
    // 显示分析结果
    printf("\n");
    show_performance_analysis(&analysis);
    
    // 详细性能建议
    printf("\n=== 性能优化建议 ===\n");
    
    if (analysis.cpu_utilization_percent > 80) {
        printf("📌 CPU使用率很高 (%.1f%%)，可能存在CPU瓶颈\n", 
               analysis.cpu_utilization_percent);
        printf("   建议:\n");
        printf("   - 考虑算法优化\n");
        printf("   - 检查是否存在无限循环\n");
        printf("   - 考虑并行处理\n");
    } else if (analysis.cpu_utilization_percent > 50) {
        printf("ℹ CPU使用率中等 (%.1f%%)\n", analysis.cpu_utilization_percent);
        printf("   建议:\n");
        printf("   - 监控CPU使用趋势\n");
        printf("   - 优化热点代码\n");
    } else {
        printf("✓ CPU使用率正常 (%.1f%%)\n", analysis.cpu_utilization_percent);
    }
    
    // I/O性能分析
    double io_ratio = (analysis.children_user_time_seconds + 
                      analysis.children_system_time_seconds) / 
                     analysis.wall_time_seconds;
    if (io_ratio > 0.3) {
        printf("\n📌 I/O操作占比较高 (%.1f%%)\n", io_ratio * 100);
        printf("   建议:\n");
        printf("   - 考虑异步I/O操作\n");
        printf("   - 优化文件访问模式\n");
        printf("   - 使用缓冲减少I/O次数\n");
    }
    
    // 并行效率分析
    if (analysis.children_user_time_seconds + analysis.children_system_time_seconds > 0) {
        printf("\n📊 子进程性能分析:\n");
        printf("   子进程总CPU时间: %.3f 秒\n", 
               analysis.children_user_time_seconds + analysis.children_system_time_seconds);
        printf("   平均每个子进程CPU时间: %.3f 秒\n",
               (analysis.children_user_time_seconds + analysis.children_system_time_seconds) / 2);
    }
    
    return 0;
}

int main() {
    return demo_performance_analyzer();
}

示例4：实时CPU监控

#include <sys/times.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <sys/wait.h>
#include <time.h>
#include <signal.h>

/**
 * CPU监控数据结构
 */
typedef struct {
    time_t timestamp;
    clock_t ticks;
    struct tms tms_data;
    double cpu_usage_percent;
    double user_cpu_percent;
    double system_cpu_percent;
    double children_cpu_percent;
} cpu_monitor_data_t;

/**
 * CPU监控器结构
 */
typedef struct {
    cpu_monitor_data_t history[100];  // 历史数据
    int history_count;
    int max_history;
    long clk_tck;
    volatile int monitoring;
    pid_t target_pid;  // 监控特定进程（0表示当前进程）
} cpu_monitor_t;

/**
 * 初始化CPU监控器
 */
int init_cpu_monitor(cpu_monitor_t *monitor, pid_t target_pid) {
    memset(monitor, 0, sizeof(cpu_monitor_t));
    monitor->max_history = 100;
    monitor->clk_tck = sysconf(_SC_CLK_TCK);
    monitor->target_pid = target_pid;
    monitor->monitoring = 1;
    
    if (monitor->clk_tck == -1) {
        perror("获取系统滴答率失败");
        return -1;
    }
    
    printf("CPU监控器初始化完成\n");
    printf("  监控目标: %s\n", target_pid ? "特定进程" : "当前进程");
    printf("  系统滴答率: %ld 滴答/秒\n", monitor->clk_tck);
    
    return 0;
}

/**
 * 收集CPU使用数据
 */
int collect_cpu_data(cpu_monitor_t *monitor) {
    if (monitor->history_count >= monitor->max_history) {
        // 循环覆盖旧数据
        memmove(&monitor->history[0], &monitor->history[1], 
                sizeof(cpu_monitor_data_t) * (monitor->max_history - 1));
        monitor->history_count = monitor->max_history - 1;
    }
    
    cpu_monitor_data_t *current = &monitor->history[monitor->history_count];
    
    current->timestamp = time(NULL);
    current->ticks = times(&current->tms_data);
    
    if (current->ticks == (clock_t)-1) {
        perror("获取CPU时间失败");
        return -1;
    }
    
    // 计算CPU使用率（与前一个采样点比较）
    if (monitor->history_count > 0) {
        cpu_monitor_data_t *previous = &monitor->history[monitor->history_count - 1];
        clock_t ticks_diff = current->ticks - previous->ticks;
        
        if (ticks_diff > 0) {
            clock_t utime_diff = current->tms_data.tms_utime - previous->tms_data.tms_utime;
            clock_t stime_diff = current->tms_data.tms_stime - previous->tms_data.tms_stime;
            clock_t cutime_diff = current->tms_data.tms_cutime - previous->tms_data.tms_cutime;
            clock_t cstime_diff = current->tms_data.tms_cstime - previous->tms_data.tms_cstime;
            
            current->user_cpu_percent = (double)utime_diff / ticks_diff * 100;
            current->system_cpu_percent = (double)stime_diff / ticks_diff * 100;
            current->children_cpu_percent = (double)(cutime_diff + cstime_diff) / ticks_diff * 100;
            current->cpu_usage_percent = current->user_cpu_percent + 
                                        current->system_cpu_percent + 
                                        current->children_cpu_percent;
        } else {
            current->cpu_usage_percent = 0.0;
            current->user_cpu_percent = 0.0;
            current->system_cpu_percent = 0.0;
            current->children_cpu_percent = 0.0;
        }
    } else {
        // 第一次采样，无法计算使用率
        current->cpu_usage_percent = 0.0;
        current->user_cpu_percent = 0.0;
        current->system_cpu_percent = 0.0;
        current->children_cpu_percent = 0.0;
    }
    
    monitor->history_count++;
    return 0;
}

/**
 * 显示CPU监控数据
 */
void show_cpu_monitor_data(const cpu_monitor_t *monitor) {
    if (monitor->history_count == 0) {
        printf("暂无监控数据\n");
        return;
    }
    
    const cpu_monitor_data_t *latest = &monitor->history[monitor->history_count - 1];
    
    printf("=== CPU监控数据 ===\n");
    printf("采样时间: %s", ctime(&latest->timestamp));
    printf("CPU使用率: %.2f%%\n", latest->cpu_usage_percent);
    printf("  用户态: %.2f%%\n", latest->user_cpu_percent);
    printf("  系统态: %.2f%%\n", latest->system_cpu_percent);
    printf("  子进程: %.2f%%\n", latest->children_cpu_percent);
    
    // 显示详细时间信息
    printf("详细时间信息:\n");
    printf("  用户态时间: %.3f 秒\n", 
           (double)latest->tms_data.tms_utime / monitor->clk_tck);
    printf("  系统态时间: %.3f 秒\n", 
           (double)latest->tms_data.tms_stime / monitor->clk_tck);
    printf("  子进程用户态时间: %.3f 秒\n", 
           (double)latest->tms_data.tms_cutime / monitor->clk_tck);
    printf("  子进程系统态时间: %.3f 秒\n", 
           (double)latest->tms_data.tms_cstime / monitor->clk_tck);
}

/**
 * 显示历史趋势
 */
void show_cpu_trend(const cpu_monitor_t *monitor) {
    if (monitor->history_count < 2) {
        printf("数据不足，无法显示趋势\n");
        return;
    }
    
    printf("=== CPU使用率趋势 ===\n");
    printf("%-20s %-8s %-8s %-8s %-8s\n", 
           "时间", "总CPU%", "用户%", "系统%", "子进程%");
    printf("%-20s %-8s %-8s %-8s %-8s\n", 
           "----", "------", "----", "----", "-----");
    
    // 显示最近10个采样点
    int start_index = (monitor->history_count > 10) ? 
                     monitor->history_count - 10 : 0;
    
    for (int i = start_index; i < monitor->history_count; i++) {
        const cpu_monitor_data_t *data = &monitor->history[i];
        char time_str[20];
        strftime(time_str, sizeof(time_str), "%H:%M:%S", localtime(&data->timestamp));
        
        printf("%-20s %-8.1f %-8.1f %-8.1f %-8.1f\n",
               time_str,
               data->cpu_usage_percent,
               data->user_cpu_percent,
               data->system_cpu_percent,
               data->children_cpu_percent);
    }
}

/**
 * 模拟被监控的工作进程
 */
void work_process(int work_id) {
    printf("工作进程 %d (PID: %d) 启动\n", work_id, getpid());
    
    // 执行不同类型的工作
    for (int cycle = 0; cycle < 5; cycle++) {
        printf("工作进程 %d: 执行周期 %d\n", work_id, cycle + 1);
        
        // CPU密集型工作
        volatile long sum = 0;
        for (long i = 0; i < 50000000; i++) {
            sum += i;
        }
        printf("  CPU工作完成，结果: %ld\n", sum);
        
        // I/O工作
        char filename[64];
        snprintf(filename, sizeof(filename), "/tmp/work_%d_cycle_%d.tmp", work_id, cycle);
        FILE *fp = fopen(filename, "w");
        if (fp) {
            for (int i = 0; i < 10000; i++) {
                fprintf(fp, "工作数据 %d.%d\n", cycle, i);
            }
            fclose(fp);
            unlink(filename);
        }
        
        sleep(2);  // 休息一下
    }
    
    printf("工作进程 %d 完成\n", work_id);
    exit(work_id);
}

/**
 * 演示实时CPU监控
 */
int demo_real_time_cpu_monitoring() {
    cpu_monitor_t monitor;
    pid_t worker_pids[2];
    int worker_count = 2;
    
    printf("=== 实时CPU监控演示 ===\n");
    
    // 初始化监控器
    if (init_cpu_monitor(&monitor, 0) != 0) {
        return -1;
    }
    
    // 创建工作进程
    printf("创建 %d 个工作进程:\n", worker_count);
    for (int i = 0; i < worker_count; i++) {
        worker_pids[i] = fork();
        if (worker_pids[i] == 0) {
            work_process(i + 1);
        } else if (worker_pids[i] > 0) {
            printf("  工作进程 %d: PID=%d\n", i + 1, worker_pids[i]);
        } else {
            perror("创建工作进程失败");
            for (int j = 0; j < i; j++) {
                kill(worker_pids[j], SIGKILL);
            }
            return -1;
        }
    }
    
    // 开始监控
    printf("\n开始实时监控 (30秒):\n");
    time_t start_time = time(NULL);
    
    while (difftime(time(NULL), start_time) < 30) {
        // 收集CPU数据
        if (collect_cpu_data(&monitor) != 0) {
            printf("收集CPU数据失败\n");
            break;
        }
        
        // 每5秒显示一次详细信息
        if (((int)difftime(time(NULL), start_time)) % 5 == 0) {
            show_cpu_monitor_data(&monitor);
            
            // 每15秒显示一次趋势
            if (((int)difftime(time(NULL), start_time)) % 15 == 0) {
                show_cpu_trend(&monitor);
            }
            
            printf("---\n");
        }
        
        // 短暂休眠
        usleep(500000);  // 500ms
    }
    
    // 等待工作进程完成
    printf("等待工作进程完成:\n");
    for (int i = 0; i < worker_count; i++) {
        int status;
        pid_t finished_pid = waitpid(worker_pids[i], &status, 0);
        if (finished_pid > 0) {
            printf("  工作进程 %d (PID=%d) 已完成，退出状态: %d\n", 
                   WEXITSTATUS(status), finished_pid, WEXITSTATUS(status));
        }
    }
    
    // 显示最终监控结果
    printf("\n=== 最终监控结果 ===\n");
    
    // 收集最终数据
    collect_cpu_data(&monitor);
    show_cpu_monitor_data(&monitor);
    
    // 显示完整趋势
    printf("\n完整CPU使用率趋势:\n");
    show_cpu_trend(&monitor);
    
    // 统计分析
    if (monitor.history_count > 1) {
        double max_cpu = 0, min_cpu = 100, avg_cpu = 0;
        double total_cpu = 0;
        int valid_samples = 0;
        
        for (int i = 1; i < monitor.history_count; i++) {
            double cpu_usage = monitor.history[i].cpu_usage_percent;
            if (cpu_usage >= 0) {  // 有效数据
                if (cpu_usage > max_cpu) max_cpu = cpu_usage;
                if (cpu_usage < min_cpu) min_cpu = cpu_usage;
                total_cpu += cpu_usage;
                valid_samples++;
            }
        }
        
        if (valid_samples > 0) {
            avg_cpu = total_cpu / valid_samples;
            
            printf("\n=== 统计分析 ===\n");
            printf("CPU使用率统计:\n");
            printf("  最高使用率: %.2f%%\n", max_cpu);
            printf("  最低使用率: %.2f%%\n", min_cpu);
            printf("  平均使用率: %.2f%%\n", avg_cpu);
            
            if (avg_cpu > 80) {
                printf("  🚨 警告: 平均CPU使用率过高\n");
            } else if (avg_cpu > 60) {
                printf("  ⚠ 提醒: CPU使用率较高\n");
            } else {
                printf("  ✓ CPU使用率正常\n");
            }
        }
    }
    
    return 0;
}

int main() {
    return demo_real_time_cpu_monitoring();
}

示例5：进程资源使用统计

#include <sys/times.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <sys/wait.h>
#include <time.h>
#include <sys/resource.h>

/**
 * 进程资源使用统计结构
 */
typedef struct {
    pid_t pid;
    char process_name[256];
    struct tms start_tms;
    struct tms end_tms;
    clock_t start_ticks;
    clock_t end_ticks;
    time_t start_time;
    time_t end_time;
    
    // CPU时间统计
    double user_time_seconds;
    double system_time_seconds;
    double children_user_time_seconds;
    double children_system_time_seconds;
    double total_cpu_time_seconds;
    double wall_clock_time_seconds;
    double cpu_utilization_percent;
    
    // 系统资源统计
    long max_rss_kb;      // 最大驻留集大小
    long page_faults;     // 页面错误次数
    long voluntary_ctxt_switches;   // 自愿上下文切换
    long nonvoluntary_ctxt_switches; // 非自愿上下文切换
} process_resource_stats_t;

/**
 * 初始化进程资源统计
 */
int init_process_resource_stats(process_resource_stats_t *stats, pid_t target_pid) {
    memset(stats, 0, sizeof(process_resource_stats_t));
    
    stats->pid = target_pid ? target_pid : getpid();
    stats->start_time = time(NULL);
    stats->start_ticks = times(&stats->start_tms);
    
    if (stats->start_ticks == (clock_t)-1) {
        perror("初始化进程资源统计失败");
        return -1;
    }
    
    // 获取进程名称
    char comm_path[256];
    snprintf(comm_path, sizeof(comm_path), "/proc/%d/comm", stats->pid);
    
    FILE *fp = fopen(comm_path, "r");
    if (fp) {
        if (fgets(stats->process_name, sizeof(stats->process_name), fp)) {
            // 移除换行符
            char *newline = strchr(stats->process_name, '\n');
            if (newline) *newline = '\0';
        }
        fclose(fp);
    } else {
        snprintf(stats->process_name, sizeof(stats->process_name), "process_%d", stats->pid);
    }
    
    printf("进程资源统计初始化:\n");
    printf("  进程ID: %d\n", stats->pid);
    printf("  进程名称: %s\n", stats->process_name);
    printf("  启动时间: %s", ctime(&stats->start_time));
    
    return 0;
}

/**
 * 完成进程资源统计
 */
int finish_process_resource_stats(process_resource_stats_t *stats) {
    long clk_tck = sysconf(_SC_CLK_TCK);
    
    stats->end_time = time(NULL);
    stats->end_ticks = times(&stats->end_tms);
    
    if (stats->end_ticks == (clock_t)-1) {
        perror("完成进程资源统计失败");
        return -1;
    }
    
    // 计算CPU时间
    clock_t utime_diff = stats->end_tms.tms_utime - stats->start_tms.tms_utime;
    clock_t stime_diff = stats->end_tms.tms_stime - stats->start_tms.tms_stime;
    clock_t cutime_diff = stats->end_tms.tms_cutime - stats->start_tms.tms_cutime;
    clock_t cstime_diff = stats->end_tms.tms_cstime - stats->start_tms.tms_cstime;
    
    stats->user_time_seconds = (double)utime_diff / clk_tck;
    stats->system_time_seconds = (double)stime_diff / clk_tck;
    stats->children_user_time_seconds = (double)cutime_diff / clk_tck;
    stats->children_system_time_seconds = (double)cstime_diff / clk_tck;
    stats->total_cpu_time_seconds = stats->user_time_seconds + 
                                   stats->system_time_seconds +
                                   stats->children_user_time_seconds + 
                                   stats->children_system_time_seconds;
    stats->wall_clock_time_seconds = (double)(stats->end_ticks - stats->start_ticks) / clk_tck;
    
    if (stats->wall_clock_time_seconds > 0) {
        stats->cpu_utilization_percent = (stats->total_cpu_time_seconds / 
                                         stats->wall_clock_time_seconds) * 100;
    }
    
    // 获取系统资源使用情况
    struct rusage usage;
    if (getrusage(RUSAGE_SELF, &usage) == 0) {
        stats->max_rss_kb = usage.ru_maxrss;  // 在Linux上以KB为单位
        stats->page_faults = usage.ru_majflt;
        stats->voluntary_ctxt_switches = usage.ru_nvcsw;
        stats->nonvoluntary_ctxt_switches = usage.ru_nivcsw;
    }
    
    return 0;
}

/**
 * 显示进程资源统计
 */
void show_process_resource_stats(const process_resource_stats_t *stats) {
    printf("=== 进程资源使用统计 ===\n");
    printf("进程信息:\n");
    printf("  进程ID: %d\n", stats->pid);
    printf("  进程名称: %s\n", stats->process_name);
    printf("  运行时间: %s 到 %s", 
           ctime(&stats->start_time), ctime(&stats->end_time));
    
    printf("\nCPU时间统计:\n");
    printf("  用户态时间: %.3f 秒\n", stats->user_time_seconds);
    printf("  系统态时间: %.3f 秒\n", stats->system_time_seconds);
    printf("  子进程用户态时间: %.3f 秒\n", stats->children_user_time_seconds);
    printf("  子进程系统态时间: %.3f 秒\n", stats->children_system_time_seconds);
    printf("  总CPU时间: %.3f 秒\n", stats->total_cpu_time_seconds);
    printf("  墙钟时间: %.3f 秒\n", stats->wall_clock_time_seconds);
    printf("  CPU利用率: %.2f%%\n", stats->cpu_utilization_percent);
    
    printf("\n系统资源统计:\n");
    printf("  最大内存使用: %ld KB (%.2f MB)\n", 
           stats->max_rss_kb, stats->max_rss_kb / 1024.0);
    printf("  主要页面错误: %ld\n", stats->page_faults);
    printf("  自愿上下文切换: %ld\n", stats->voluntary_ctxt_switches);
    printf("  非自愿上下文切换: %ld\n", stats->nonvoluntary_ctxt_switches);
    printf("  总上下文切换: %ld\n", stats->voluntary_ctxt_switches + 
           stats->nonvoluntary_ctxt_switches);
}

/**
 * 模拟不同类型的工作负载
 */
void simulate_workload(int workload_type, int intensity) {
    switch (workload_type) {
        case 1:  // CPU密集型
            printf("执行CPU密集型工作 (强度: %d)\n", intensity);
            volatile long sum = 0;
            for (long i = 0; i < intensity * 10000000L; i++) {
                sum += i * i;
            }
            printf("  CPU工作完成，结果: %ld\n", sum);
            break;
            
        case 2:  // I/O密集型
            printf("执行I/O密集型工作 (强度: %d)\n", intensity);
            for (int i = 0; i < intensity * 100; i++) {
                char filename[64];
                snprintf(filename, sizeof(filename), "/tmp/io_work_%d_%d.tmp", getpid(), i);
                
                FILE *fp = fopen(filename, "w");
                if (fp) {
                    for (int j = 0; j < 1000; j++) {
                        fprintf(fp, "测试数据 %d.%d\n", i, j);
                    }
                    fclose(fp);
                    unlink(filename);
                }
            }
            printf("  I/O工作完成\n");
            break;
            
        case 3:  // 内存密集型
            printf("执行内存密集型工作 (强度: %d)\n", intensity);
            size_t alloc_size = intensity * 1024 * 1024;  // MB
            char *buffer = malloc(alloc_size);
            if (buffer) {
                // 填充内存
                memset(buffer, 0xAA, alloc_size);
                // 访问内存
                volatile long checksum = 0;
                for (size_t i = 0; i < alloc_size; i += 1024) {
                    checksum += buffer[i];
                }
                printf("  内存工作完成，校验和: %ld\n", checksum);
                free(buffer);
            } else {
                printf("  内存分配失败\n");
            }
            break;
            
        default:
            printf("未知工作负载类型: %d\n", workload_type);
            break;
    }
}

/**
 * 演示进程资源使用统计
 */
int demo_process_resource_statistics() {
    process_resource_stats_t stats;
    long clk_tck = sysconf(_SC_CLK_TCK);
    
    printf("=== 进程资源使用统计演示 ===\n");
    printf("系统滴答率: %ld 滴答/秒\n", clk_tck);
    
    // 初始化统计
    if (init_process_resource_stats(&stats, 0) != 0) {
        return -1;
    }
    
    printf("\n开始执行不同类型的工作负载:\n");
    
    // 工作负载1: CPU密集型
    printf("\n1. CPU密集型工作:\n");
    simulate_workload(1, 5);
    
    // 工作负载2: I/O密集型
    printf("\n2. I/O密集型工作:\n");
    simulate_workload(2, 3);
    
    // 工作负载3: 内存密集型
    printf("\n3. 内存密集型工作:\n");
    simulate_workload(3, 100);
    
    // 混合工作负载
    printf("\n4. 混合工作负载:\n");
    for (int i = 0; i < 3; i++) {
        simulate_workload(1, 2);  // 轻量CPU工作
        simulate_workload(2, 1);   // 轻量I/O工作
        sleep(1);
    }
    
    // 完成统计
    if (finish_process_resource_stats(&stats) != 0) {
        return -1;
    }
    
    // 显示统计结果
    printf("\n");
    show_process_resource_stats(&stats);
    
    // 详细分析
    printf("\n=== 详细分析 ===\n");
    
    // CPU使用分析
    printf("CPU使用分析:\n");
    if (stats.cpu_utilization_percent > 80) {
        printf("  🚨 CPU使用率极高 (%.1f%%)\n", stats.cpu_utilization_percent);
        printf("     建议检查是否存在无限循环或算法效率问题\n");
    } else if (stats.cpu_utilization_percent > 50) {
        printf("  ⚠ CPU使用率较高 (%.1f%%)\n", stats.cpu_utilization_percent);
        printf("     建议优化热点代码\n");
    } else {
        printf("  ✓ CPU使用率正常 (%.1f%%)\n", stats.cpu_utilization_percent);
    }
    
    // 内存使用分析
    printf("\n内存使用分析:\n");
    if (stats.max_rss_kb > 1024 * 1024) {  // 超过1GB
        printf("  🚨 内存使用量巨大: %.2f GB\n", stats.max_rss_kb / (1024.0 * 1024.0));
        printf("     建议检查是否存在内存泄漏\n");
    } else if (stats.max_rss_kb > 100 * 1024) {  // 超过100MB
        printf("  ℹ 内存使用量较大: %.2f MB\n", stats.max_rss_kb / 1024.0);
        printf("     建议监控内存增长趋势\n");
    } else {
        printf("  ✓ 内存使用量正常: %.2f MB\n", stats.max_rss_kb / 1024.0);
    }
    
    // I/O效率分析
    printf("\nI/O效率分析:\n");
    double io_efficiency = (double)stats.voluntary_ctxt_switches / 
                          (stats.voluntary_ctxt_switches + stats.nonvoluntary_ctxt_switches + 1);
    if (io_efficiency > 0.8) {
        printf("  ✓ I/O效率良好 (%.1f%% 自愿切换)\n", io_efficiency * 100);
        printf("     表明程序很好地配合了I/O操作\n");
    } else {
        printf("  ℹ I/O效率一般 (%.1f%% 自愿切换)\n", io_efficiency * 100);
        printf("     可以考虑优化阻塞I/O操作\n");
    }
    
    // 性能建议
    printf("\n=== 性能优化建议 ===\n");
    printf("1. CPU优化:\n");
    printf("   - 分析CPU密集型代码段\n");
    printf("   - 考虑并行处理或算法优化\n");
    printf("   - 使用性能分析工具定位热点\n");
    
    printf("\n2. 内存优化:\n");
    printf("   - 监控内存使用峰值\n");
    printf("   - 及时释放不用的内存\n");
    printf("   - 考虑内存池或对象复用\n");
    
    printf("\n3. I/O优化:\n");
    printf("   - 使用缓冲减少I/O次数\n");
    printf("   - 考虑异步I/O操作\n");
    printf("   - 优化文件访问模式\n");
    
    return 0;
}

int main() {
    return demo_process_resource_statistics();
}

times 使用注意事项

系统要求：

POSIX兼容: 支持POSIX标准的系统
权限要求: 通常不需要特殊权限
架构支持: 支持所有主流架构

精度考虑：

滴答精度: 受系统滴答率限制（通常100Hz）
累积误差: 长时间监控可能累积误差
采样频率: 高频采样可能影响被监控进程

错误处理：

返回值检查: 必须检查返回值和errno
系统资源: 可能在资源不足时失败
进程状态: 目标进程终止时的行为

性能考虑：

系统调用开销: 频繁调用有性能开销
内存使用: 历史数据存储需要内存
监控开销: 监控本身会消耗少量CPU资源

安全考虑：

权限检查: 监控其他进程需要适当权限
资源限制: 避免过度消耗系统资源
数据保护: 监控数据的隐私和安全

最佳实践：

合理采样: 选择适当的采样间隔
错误处理: 妥善处理各种错误情况
资源管理: 及时清理监控资源
数据持久化: 重要监控数据应持久化存储
报警机制: 设置合理的报警阈值

times函数特点

优点：

标准兼容: POSIX标准函数，广泛支持
信息全面: 提供完整的CPU时间统计
性能良好: 系统调用开销小
易于使用: API简单直观

限制：

精度限制: 受系统滴答率限制
实时性: 不是实时监控的最佳选择
跨进程: 监控其他进程需要权限
历史数据: 只能获取累积统计，不能获取瞬时值

常见使用场景

1. 性能分析：

// 分析程序CPU使用情况
struct tms start_tms, end_tms;
clock_t start_ticks = times(&start_tms);
// 执行程序
clock_t end_ticks = times(&end_tms);
// 计算CPU时间差

2. 资源监控：

// 监控进程资源使用
while (monitoring) {
    struct tms current_tms;
    clock_t current_ticks = times(&current_tms);
    // 分析CPU使用率
    sleep(1);
}

3. 系统管理：

// 系统负载监控
struct tms system_tms;
clock_t system_ticks = times(&system_tms);
// 分析系统整体性能

总结

times 函数是Linux系统中重要的进程资源监控工具，提供了：

全面的CPU时间统计: 包括用户态、系统态和子进程时间
标准兼容性: 符合POSIX标准，广泛支持
简单易用: API设计直观，易于集成
性能监控: 适用于各种性能分析场景

通过合理使用 times 函数，可以构建功能强大的性能监控和分析工具。在实际应用中，需要注意精度限制、错误处理和性能影响等问题，选择合适的监控策略和采样频率。

https://app-blog.csdn.net/csdn/aiChatNew

times 函数详解

1. 函数介绍

2. 函数原型

3. 功能

4. 参数

5. 返回值

6. 相似函数，或关联函数

7. 示例代码

示例1：基础times使用

示例2：父子进程CPU时间统计

示例3：性能分析工具

示例4：实时CPU监控

示例5：进程资源使用统计

times 使用注意事项

系统要求：

精度考虑：

错误处理：

性能考虑：

安全考虑：

最佳实践：

times函数特点

优点：

限制：

常见使用场景

1. 性能分析：

2. 资源监控：

3. 系统管理：

总结

Markdown 27496 字数 1357 行数当前行 1, 当前列 0

HTML 27105 字数 1120 段落

保存草稿发布文章

发表在 linux文章 | 留下评论

tkill系统调用及示例

发表于2025-08-08由麦芽爸

我们来深入学习 tkill 系统调用

1. 函数介绍

在 Linux 系统中，信号（Signal）是一种进程间通信（IPC）机制，允许一个进程（或内核）向另一个进程发送简短的异步通知。例如，当你在终端按下 Ctrl+C 时，系统会向当前前台进程发送 SIGINT 信号。

发送信号最常用的方法是 kill() 系统调用。kill(pid_t pid, int sig) 可以向指定的进程 ID (PID) 发送信号。

然而，在 Linux（特别是引入了线程之后），情况变得稍微复杂了一些。一个进程 (Process) 可以包含多个线程 (Threads)。这些线程共享同一个 PID，但每个线程都有自己的唯一线程 ID (TID)。在 Linux 内核的实现中，每个线程实际上都被视为一个独立的“任务”（task）。

这就引出了一个问题：如果我想向一个特定的线程发送信号，而不是整个进程，该怎么办？使用 kill() 只能指定 PID，内核会选择该进程中的某个线程来接收信号，但我们无法精确控制是哪一个。

tkill (Thread Kill) 系统调用就是为了解决这个问题而设计的。它的作用是向指定的线程 ID (TID) 发送信号。

tkill系统调用及示例

简单来说，tkill 就是 kill 的“精确打击”版本，它让你可以指定向哪个“小兵”（线程）开炮，而不是向整个“军队”（进程）开炮。

重要提示：

tkill 是一个非常底层的系统调用。
对于大多数应用程序开发，不推荐直接使用 tkill。
POSIX 标准提供了更安全、更可移植的线程信号发送方法：pthread_kill()。这是你应该优先考虑使用的函数。
tkill 主要由线程库（如 NPTL）或高级调试/管理工具在内部使用。

2. 函数原型

// 标准 C 库通常不提供直接包装，需要通过 syscall 调用
#include <sys/syscall.h> // 包含系统调用号 SYS_tkill
#include <unistd.h>      // 包含 syscall 函数
#include <signal.h>      // 包含信号常量

long syscall(SYS_tkill, int tid, int sig);
// 注意：现代 glibc (2.30+) 提供了 tgkill，tkill 可能被弃用或不直接暴露

注意：用户空间标准 C 库通常不直接提供 tkill() 函数。你需要使用 syscall() 函数来直接调用系统调用号 SYS_tkill。

3. 功能

向指定线程 ID (tid) 的线程发送指定的信号 (sig)。

4. 参数

tid:
- int 类型。
- 目标线程在内核中的唯一 ID (Thread ID)。这不是 POSIX 线程库 (pthread_t) 的 ID，而是内核级别的 TID。可以通过 syscall(SYS_gettid) 获取当前线程的 TID。
sig:
- int 类型。
- 要发送的信号编号，例如 SIGTERM, SIGUSR1, SIGSTOP 等。注意，SIGKILL 和 SIGSTOP 不能被捕获或忽略，但可以发送。

5. 返回值

成功: 返回 0。
失败: 返回 -1，并设置全局变量 errno 来指示具体的错误原因。

6. 错误码 (`errno`)

EINVAL: sig 参数无效（不是一个有效的信号号）。
EPERM: 调用者权限不足，无法向目标线程发送信号（例如，普通用户试图向 root 用户的线程发送信号）。
ESRCH: 找不到 tid 指定的线程。

7. 相似函数或关联函数

kill: 向指定进程 ID (PID) 发送信号。内核会选择进程中的一个线程来接收信号。
pthread_kill: POSIX 标准函数，用于向指定的 pthread_t 线程发送信号。这是用户空间多线程程序推荐使用的方法。
tgkill: 一个更安全的系统调用，用于向指定线程组 ID 和线程 ID 的线程发送信号 (tgkill(tgid, tid, sig))。它提供了额外的检查以避免向错误的线程发送信号。pthread_kill 在底层通常会调用 tgkill。
gettid: 获取当前线程的内核 TID。需要通过 syscall(SYS_gettid) 调用。
pthread_self: 获取当前线程的 POSIX 线程 ID (pthread_t)。

8. 为什么 `tkill` 不推荐直接使用？

易错性：直接使用内核 TID (tid) 容易出错。如果 tid 恰好与系统中另一个不相关的进程的 PID 相同，tkill 可能会错误地向那个进程发送信号。
竞态条件：线程 ID 是可复用的。一个线程退出后，它的 TID 可能会被分配给一个新创建的、完全不相关的线程。如果在 ID 复用之间调用 tkill，可能会发送给错误的线程。
可移植性：tkill 是 Linux 特有的系统调用。使用 POSIX 标准的 pthread_kill 可以让你的代码更容易移植到其他支持 POSIX 线程的系统上。
更好的抽象：pthread_kill 工作在 POSIX 线程模型层面，更符合应用程序员的思维。

9. 示例代码

由于直接使用 tkill 比较危险且不推荐，下面的示例将演示：

如何获取线程的内核 TID。
如何（不推荐地）使用 tkill。
如何（推荐地）使用 pthread_kill。

警告：此示例用于教学目的，展示 tkill 的用法。在实际编程中，请使用 pthread_kill。

#define _GNU_SOURCE // 启用 GNU 扩展以使用 syscall(SYS_gettid)
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <pthread.h>   // POSIX 线程
#include <signal.h>    // 信号
#include <sys/syscall.h> // syscall, SYS_tkill, SYS_gettid
#include <errno.h>
#include <string.h>

// 全局变量用于线程间通信
volatile sig_atomic_t signal_received = 0;

// 信号处理函数
void signal_handler(int sig) {
    printf("Thread (TID %ld) received signal %d\n", syscall(SYS_gettid), sig);
    signal_received = 1;
}

// 线程函数
void* worker_thread(void *arg) {
    long thread_num = (long)arg;
    pid_t my_tid = syscall(SYS_gettid); // 获取内核 TID

    printf("Worker thread %ld started. Kernel TID: %d\n", thread_num, my_tid);

    // 设置信号处理掩码，解除对 SIGUSR1 的阻塞
    // (假设主线程已经阻塞了它)
    sigset_t set;
    sigemptyset(&set);
    sigaddset(&set, SIGUSR1);
    pthread_sigmask(SIG_UNBLOCK, &set, NULL);

    // 等待信号
    while (!signal_received) {
        printf("Worker thread %ld (TID %d) waiting for signal...\n", thread_num, my_tid);
        sleep(1);
    }

    printf("Worker thread %ld (TID %d) finishing.\n", thread_num, my_tid);
    return NULL;
}

int main() {
    pthread_t thread1, thread2;
    pid_t main_tid = syscall(SYS_gettid); // 获取主线程的 TID
    struct sigaction sa;

    printf("--- Demonstrating tkill vs pthread_kill ---\n");
    printf("Main thread PID: %d, Kernel TID: %d\n", getpid(), main_tid);

    // 1. 设置信号处理函数 (主线程)
    memset(&sa, 0, sizeof(sa));
    sa.sa_handler = signal_handler;
    sigemptyset(&sa.sa_mask);
    if (sigaction(SIGUSR1, &sa, NULL) == -1) {
        perror("sigaction");
        exit(EXIT_FAILURE);
    }

    // 2. 阻塞 SIGUSR1 在主线程，稍后在线程中解除阻塞
    sigset_t block_set;
    sigemptyset(&block_set);
    sigaddset(&block_set, SIGUSR1);
    sigprocmask(SIG_BLOCK, &block_set, NULL);

    // 3. 创建工作线程
    if (pthread_create(&thread1, NULL, worker_thread, (void*)1) != 0 ||
        pthread_create(&thread2, NULL, worker_thread, (void*)2) != 0) {
        perror("pthread_create");
        exit(EXIT_FAILURE);
    }

    sleep(2); // 等待线程启动并打印 TID

    // --- 方法 1: 使用不推荐的 tkill ---
    printf("\n--- Using tkill (NOT RECOMMENDED) ---\n");
    // 假设我们 somehow 知道了 thread1 的内核 TID (这在现实中很难安全地做到)
    // 这里我们简化处理，直接使用
    pid_t worker1_tid = syscall(SYS_gettid); // 这是错误的！这是主线程的 TID
    // 为了演示，我们假设我们有一个正确的方法获取了 worker1 的 TID
    // 比如通过全局变量或线程自己报告
    // 让我们让 worker_thread 报告它的 TID
    // (在实际代码中，你需要一个安全的机制在线程间传递 TID)
    // 这里我们伪造一个值来演示，实际使用非常危险
    // pid_t fake_worker_tid = 99999; // 假设的 TID
    // printf("Attempting to send SIGUSR1 to worker thread using tkill(TID=%d)...\n", fake_worker_tid);
    // long result = syscall(SYS_tkill, fake_worker_tid, SIGUSR1);
    // if (result == -1) {
    //     perror("tkill");
    // } else {
    //     printf("tkill succeeded.\n");
    // }

    // 由于获取其他线程 TID 的安全方法复杂，我们跳过直接 tkill 演示
    // 而是重点演示推荐的方法

    // --- 方法 2: 使用推荐的 pthread_kill ---
    printf("\n--- Using pthread_kill (RECOMMENDED) ---\n");
    printf("Sending SIGUSR1 to worker thread 1 using pthread_kill()...\n");
    if (pthread_kill(thread1, SIGUSR1) != 0) {
        perror("pthread_kill thread1");
    } else {
        printf("pthread_kill(thread1, SIGUSR1) succeeded.\n");
    }

    sleep(2); // 等待线程处理信号

    printf("Sending SIGUSR1 to worker thread 2 using pthread_kill()...\n");
    if (pthread_kill(thread2, SIGUSR1) != 0) {
        perror("pthread_kill thread2");
    } else {
        printf("pthread_kill(thread2, SIGUSR1) succeeded.\n");
    }

    // 5. 等待线程结束
    if (pthread_join(thread1, NULL) != 0 ||
        pthread_join(thread2, NULL) != 0) {
        perror("pthread_join");
    }

    printf("\nMain thread finished.\n");
    return 0;
}

改进版示例：安全地在线程间传递 TID 并演示 tkill（仅供学习）

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <pthread.h>
#include <signal.h>
#include <sys/syscall.h>
#include <errno.h>
#include <stdatomic.h>

// 使用原子变量安全地在线程间共享 TID
_Atomic pid_t worker_tid = 0;

volatile sig_atomic_t worker_signal_received = 0;

void worker_signal_handler(int sig) {
    pid_t tid = syscall(SYS_gettid);
    printf("Worker (TID %d) received signal %d\n", tid, sig);
    worker_signal_received = 1;
}

void* worker_thread_v2(void *arg) {
    pid_t my_tid = syscall(SYS_gettid);
    printf("Worker thread started. Kernel TID: %d\n", my_tid);

    // 安全地将 TID 报告给主线程
    atomic_store(&worker_tid, my_tid);

    // 设置信号处理
    struct sigaction sa;
    sa.sa_handler = worker_signal_handler;
    sigemptyset(&sa.sa_mask);
    sa.sa_flags = 0;
    if (sigaction(SIGUSR2, &sa, NULL) == -1) { // 使用不同的信号以区分
        perror("sigaction worker");
        return NULL;
    }

    while (!worker_signal_received) {
        sleep(1);
    }
    printf("Worker (TID %d) exiting.\n", my_tid);
    return NULL;
}

int main() {
    pthread_t thread;
    pid_t main_tid = syscall(SYS_gettid);

    printf("--- Demonstrating tkill (Learning Purpose Only) ---\n");
    printf("Main thread PID: %d, Kernel TID: %d\n", getpid(), main_tid);

    if (pthread_create(&thread, NULL, worker_thread_v2, NULL) != 0) {
        perror("pthread_create");
        exit(EXIT_FAILURE);
    }

    // 等待 worker 线程报告其 TID
    pid_t target_tid;
    while ((target_tid = atomic_load(&worker_tid)) == 0) {
        usleep(100000); // 0.1 秒
    }
    printf("Main thread got worker TID: %d\n", target_tid);

    sleep(1); // 确保 worker 设置了信号处理函数

    // --- 现在演示 tkill (仅供学习，实际不推荐) ---
    printf("\n--- Using tkill (FOR LEARNING ONLY) ---\n");
    printf("Sending SIGUSR2 to worker thread (TID %d) using tkill()...\n", target_tid);
    long result = syscall(SYS_tkill, target_tid, SIGUSR2);
    if (result == -1) {
        perror("tkill");
        printf("This might fail due to permissions or the TID being invalid/reused.\n");
    } else {
        printf("tkill() returned 0 (success).\n");
    }

    pthread_join(thread, NULL);
    printf("Main thread finished.\n");
    return 0;
}

10. 编译和运行

# 假设代码保存在 tkill_example.c 中
# 需要链接 pthread 库
gcc -o tkill_example tkill_example.c -lpthread

# 运行程序
./tkill_example

11. 预期输出 (第二个示例)

--- Demonstrating tkill (Learning Purpose Only) ---
Main thread PID: 12345, Kernel TID: 12345
Worker thread started. Kernel TID: 12346
Main thread got worker TID: 12346

--- Using tkill (FOR LEARNING ONLY) ---
Sending SIGUSR2 to worker thread (TID 12346) using tkill()...
Worker (TID 12346) received signal 12
tkill() returned 0 (success).
Worker (TID 12346) exiting.
Main thread finished.

12. 总结

tkill 是一个底层的 Linux 系统调用，用于向指定的内核线程 ID (TID) 发送信号。

优点：提供了向特定线程发送信号的能力。
缺点/风险：
- 易于误用，可能导致向错误的进程/线程发送信号。
- 存在竞态条件（TID 复用）。
- 不是 POSIX 标准，可移植性差。
推荐做法：在用户空间多线程程序中，应始终优先使用标准的 pthread_kill() 函数来向特定线程发送信号。它更安全、更可靠、更具可移植性。
tkill 的用途：主要供系统级程序、线程库实现或调试工具内部使用。

对于 Linux 编程新手，请记住：能用 pthread_kill 就别用 tkill。

https://app-blog.csdn.net/csdn/aiChatNew

1. 函数介绍

2. 函数原型

3. 功能

4. 参数

5. 返回值

6. 错误码 (`errno`)

7. 相似函数或关联函数

8. 为什么 `tkill` 不推荐直接使用？

9. 示例代码

10. 编译和运行

11. 预期输出 (第二个示例)

12. 总结

Markdown 7782 字数 338 行数当前行 1, 当前列 20 文章已保存22:13:08

HTML 7390 字数 253 段落

保存草稿发布文章

发表在 linux文章 | 留下评论

truncate 系统调用及示例

发表于2025-08-08由麦芽爸

了解Linux中truncate系统调用的功能、语法及实用示例，帮助你高效管理文件大小，truncate系统调用用于将文件截断到指定长度。如果指定长度小于文件当前长度，则文件末尾被截断；如果指定长度大于文件当前长度，则文件被扩展，扩展部分填充为零。

truncate – 截断文件

函数介绍

truncate系统调用用于将文件截断到指定长度。如果指定长度小于文件当前长度，则文件末尾被截断；如果指定长度大于文件当前长度，则文件被扩展，扩展部分填充为零。

函数原型

#include <unistd.h>
#include <sys/types.h>

int truncate(const char *path, off_t length);

功能

根据文件路径将文件截断或扩展到指定长度。

参数

const char *path: 文件路径名
off_t length: 目标文件长度（字节）

返回值

成功时返回0
失败时返回-1，并设置errno：
- EACCES: 权限不足
- EFBIG: 长度参数过大
- EIO: I/O错误
- EISDIR: 路径指向目录
- ELOOP: 符号链接循环
- ENAMETOOLONG: 路径名过长
- ENOENT: 文件不存在
- ENOTDIR: 路径前缀不是目录
- EPERM: 操作不被允许
- EROFS: 文件在只读文件系统上
- ETXTBSY: 文件是正在执行的程序

相似函数

ftruncate(): 通过文件描述符截断文件
open()配合O_TRUNC标志

示例代码

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <errno.h>
#include <string.h>
#include <sys/stat.h>

int main() {
    int fd;
    struct stat stat_buf;
    
    printf("=== Truncate函数示例 ===\n");
    
    // 示例1: 基本的文件截断操作
    printf("\n示例1: 基本的文件截断操作\n");
    
    // 创建测试文件并写入数据
    fd = open("test_truncate.txt", O_CREAT | O_RDWR | O_TRUNC, 0644);
    if (fd == -1) {
        perror("创建测试文件失败");
        exit(EXIT_FAILURE);
    }
    
    // 写入较长的数据
    const char *original_data = 
        "This is a long piece of text that will be used to demonstrate "
        "the truncate function. It contains multiple sentences and is "
        "quite lengthy to show how truncation works.";
    
    if (write(fd, original_data, strlen(original_data)) == -1) {
        perror("写入原始数据失败");
        close(fd);
        exit(EXIT_FAILURE);
    }
    
    printf("写入原始数据，长度: %ld 字节\n", (long)strlen(original_data));
    close(fd);
    
    // 获取原始文件状态
    if (stat("test_truncate.txt", &stat_buf) == -1) {
        perror("获取文件状态失败");
    } else {
        printf("原始文件大小: %ld 字节\n", stat_buf.st_size);
    }
    
    // 使用truncate截断文件到50字节
    printf("\n使用truncate将文件截断到50字节...\n");
    if (truncate("test_truncate.txt", 50) == -1) {
        perror("截断文件失败");
    } else {
        printf("文件截断成功\n");
    }
    
    // 检查截断后的文件大小
    if (stat("test_truncate.txt", &stat_buf) == -1) {
        perror("获取截断后文件状态失败");
    } else {
        printf("截断后文件大小: %ld 字节\n", stat_buf.st_size);
    }
    
    // 读取截断后的数据验证
    fd = open("test_truncate.txt", O_RDONLY);
    if (fd != -1) {
        char buffer[100];
        ssize_t bytes_read = read(fd, buffer, sizeof(buffer) - 1);
        if (bytes_read > 0) {
            buffer[bytes_read] = '\0';
            printf("截断后文件内容: %s\n", buffer);
        }
        close(fd);
    }
    
    // 示例2: 扩展文件
    printf("\n示例2: 扩展文件\n");
    
    // 使用truncate将文件扩展到100字节
    printf("使用truncate将文件扩展到100字节...\n");
    if (truncate("test_truncate.txt", 100) == -1) {
        perror("扩展文件失败");
    } else {
        printf("文件扩展成功\n");
    }
    
    // 检查扩展后的文件大小
    if (stat("test_truncate.txt", &stat_buf) == -1) {
        perror("获取扩展后文件状态失败");
    } else {
        printf("扩展后文件大小: %ld 字节\n", stat_buf.st_size);
    }
    
    // 读取扩展后的数据
    fd = open("test_truncate.txt", O_RDONLY);
    if (fd != -1) {
        char buffer[150];
        ssize_t bytes_read = read(fd, buffer, sizeof(buffer) - 1);
        if (bytes_read > 0) {
            printf("扩展后文件前%d字节内容:\n", (int)bytes_read);
            // 打印可见字符
            for (int i = 0; i < bytes_read && i < 60; i++) {
                if (buffer[i] >= 32 && buffer[i] <= 126) {
                    putchar(buffer[i]);
                } else {
                    printf("[%02x]", (unsigned char)buffer[i]);
                }
            }
            printf("\n");
        }
        close(fd);
    }
    
    // 示例3: 截断到0字节（清空文件）
    printf("\n示例3: 截断到0字节（清空文件）\n");
    
    printf("将文件截断到0字节...\n");
    if (truncate("test_truncate.txt", 0) == -1) {
        perror("清空文件失败");
    } else {
        printf("文件清空成功\n");
    }
    
    if (stat("test_truncate.txt", &stat_buf) == -1) {
        perror("获取清空后文件状态失败");
    } else {
        printf("清空后文件大小: %ld 字节\n", stat_buf.st_size);
    }
    
    // 示例4: 不同长度的截断演示
    printf("\n示例4: 不同长度的截断演示\n");
    
    // 重新创建文件并写入数据
    fd = open("test_truncate.txt", O_CREAT | O_RDWR | O_TRUNC, 0644);
    if (fd != -1) {
        const char *test_data = "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ";
        if (write(fd, test_data, strlen(test_data)) != -1) {
            printf("重新写入测试数据: %s\n", test_data);
        }
        close(fd);
    }
    
    // 演示不同长度的截断
    off_t lengths[] = {5, 15, 30, 50};
    for (int i = 0; i < 4; i++) {
        printf("截断到%ld字节: ", lengths[i]);
        if (truncate("test_truncate.txt", lengths[i]) == -1) {
            printf("失败 - %s\n", strerror(errno));
        } else {
            if (stat("test_truncate.txt", &stat_buf) == -1) {
                printf("获取状态失败\n");
            } else {
                printf("成功，新大小: %ld字节\n", stat_buf.st_size);
                
                // 读取并显示内容
                fd = open("test_truncate.txt", O_RDONLY);
                if (fd != -1) {
                    char buffer[100];
                    ssize_t bytes_read = read(fd, buffer, stat_buf.st_size);
                    if (bytes_read > 0) {
                        buffer[bytes_read] = '\0';
                        printf("  内容: %s\n", buffer);
                    }
                    close(fd);
                }
            }
        }
    }
    
    // 示例5: 错误处理演示
    printf("\n示例5: 错误处理演示\n");
    
    // 尝试截断不存在的文件
    if (truncate("nonexistent_file.txt", 100) == -1) {
        printf("截断不存在的文件: %s\n", strerror(errno));
    }
    
    // 尝试对只读文件系统上的文件操作
    // 这个测试可能需要特殊环境，我们只演示概念
    printf("对只读文件系统操作会返回EROFS错误\n");
    
    // 尝试使用负数长度
    if (truncate("test_truncate.txt", -10) == -1) {
        printf("使用负数长度: %s\n", strerror(errno));
    }
    
    // 尝试对目录操作
    if (truncate(".", 100) == -1) {
        printf("对目录截断: %s\n", strerror(errno));
    }
    
    // 示例6: 实际应用场景
    printf("\n示例6: 实际应用场景\n");
    
    // 场景1: 日志文件轮转
    printf("场景1: 日志文件轮转\n");
    int log_fd = open("application.log", O_CREAT | O_RDWR | O_APPEND, 0644);
    if (log_fd != -1) {
        // 模拟写入大量日志
        for (int i = 0; i < 100; i++) {
            char log_entry[100];
            sprintf(log_entry, "Log entry %d: Application is running normally\n", i);
            write(log_fd, log_entry, strlen(log_entry));
        }
        close(log_fd);
        
        // 检查日志文件大小
        if (stat("application.log", &stat_buf) == 0) {
            printf("日志文件大小: %ld 字节\n", stat_buf.st_size);
            
            // 如果文件太大，截断到1KB
            if (stat_buf.st_size > 1024) {
                printf("日志文件过大，截断到1KB...\n");
                if (truncate("application.log", 1024) == -1) {
                    perror("日志文件截断失败");
                } else {
                    printf("日志文件截断成功\n");
                }
            }
        }
        
        unlink("application.log");
    }
    
    // 场景2: 临时文件大小控制
    printf("场景2: 临时文件大小控制\n");
    int temp_fd = open("temp_file.dat", O_CREAT | O_RDWR, 0644);
    if (temp_fd != -1) {
        // 创建一个大文件
        char large_data[1000];
        memset(large_data, 'X', sizeof(large_data));
        for (int i = 0; i < 10; i++) {
            write(temp_fd, large_data, sizeof(large_data));
        }
        close(temp_fd);
        
        if (stat("temp_file.dat", &stat_buf) == 0) {
            printf("临时文件原始大小: %ld 字节\n", stat_buf.st_size);
            
            // 将文件大小调整为5KB
            printf("调整临时文件大小到5KB...\n");
            if (truncate("temp_file.dat", 5120) == -1) {
                perror("调整文件大小失败");
            } else {
                printf("文件大小调整成功\n");
                
                if (stat("temp_file.dat", &stat_buf) == 0) {
                    printf("调整后文件大小: %ld 字节\n", stat_buf.st_size);
                }
            }
        }
        
        unlink("temp_file.dat");
    }
    
    // 清理资源
    printf("\n清理资源...\n");
    if (unlink("test_truncate.txt") == -1) {
        perror("删除测试文件失败");
    } else {
        printf("成功删除测试文件\n");
    }
    
    return 0;
}

truncate 系统调用及示例

发表在 linux文章 | 留下评论

tuxcall系统调用及示例

发表于2025-08-08由麦芽爸

tuxcall函数详解

1. 函数介绍

tuxcall函数是Linux内核中一个特殊的系统调用，主要用于TUX（Threaded linUX web server）Web服务器的内核级操作。TUX是一个实验性的高性能Web服务器，它将HTTP请求处理的某些部分直接在内核空间完成，以减少用户空间和内核空间之间的上下文切换开销。

可以把tuxcall想象成一个”内核级Web服务接口”，它允许用户空间程序与内核中的TUX Web服务器模块进行通信。通过tuxcall，应用程序可以执行一些原本需要在内核中处理的Web服务器操作，如缓存管理、连接处理等。

重要说明: tuxcall是一个非常特殊的函数，它：

不是标准的POSIX系统调用
主要用于特定的内核模块（TUX Web服务器）
在现代Linux发行版中很少使用
需要特定的内核配置和支持

使用场景：

与TUX内核Web服务器交互
高性能Web服务器开发
内核模块与用户空间通信
学习Linux内核网络子系统

2. 函数原型

#include <sys/syscall.h>
#include <unistd.h>

// tuxcall不是标准库函数，需要通过系统调用直接调用
long syscall(SYS_tuxcall, int subcall, void *arg1, void *arg2);

注意：tuxcall在标准的系统调用表中可能不存在，因为它是一个实验性功能。

3. 功能

tuxcall函数的主要功能是作为用户空间程序与TUX内核Web服务器模块之间的通信接口。它支持多种子调用，每种子调用执行不同的Web服务器相关操作：

缓存管理: 管理内核中的HTTP内容缓存
连接控制: 控制网络连接的状态
统计信息: 获取Web服务器的运行统计
配置管理: 配置内核Web服务器参数

4. 参数

subcall: 子调用类型
- 类型：int
- 含义：指定要执行的具体操作类型
- 常用值（如果支持）：
  - TUX_INIT：初始化TUX系统
  - TUX_CACHE_ADD：添加缓存项
  - TUX_CACHE_DEL：删除缓存项
  - TUX_CACHE_LOOKUP：查找缓存项
  - TUX_STATS_GET：获取统计信息
  - TUX_CONFIG_SET：设置配置参数
arg1: 第一个参数
- 类型：void*
- 含义：根据subcall类型而定的参数，通常是指向数据结构的指针
arg2: 第二个参数
- 类型：void*
- 含义：根据subcall类型而定的第二个参数，可能为NULL

5. 返回值

成功: 返回0或具体操作的返回值
失败: 返回-1，并设置errno错误码
- ENOSYS：系统调用不支持
- EINVAL：参数无效
- EPERM：权限不足
- ENODEV：设备或模块不存在

6. 相似函数或关联函数

syscall(): 通用系统调用接口
ioctl(): 设备控制接口
socketcall(): 套接字相关系统调用
TUX内核模块: 实际提供功能的内核组件
sendfile(): 高效文件传输函数
splice(): 管道数据传输函数

7. 示例代码

示例1：检测tuxcall支持

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/syscall.h>
#include <errno.h>
#include <string.h>

// 尝试定义tuxcall系统调用号（可能不存在）
#ifndef SYS_tuxcall
#define SYS_tuxcall 184  // 这是一个假设的系统调用号
#endif

// TUX子调用类型（假设定义）
#define TUX_NOP         0
#define TUX_INIT        1
#define TUX_VERSION     2
#define TUX_STATS       3

// 检测系统是否支持tuxcall
int check_tuxcall_support() {
    printf("检测tuxcall系统调用支持...\n");
    
    // 尝试调用一个无害的NOP操作
    long result = syscall(SYS_tuxcall, TUX_NOP, NULL, NULL);
    
    if (result == -1) {
        if (errno == ENOSYS) {
            printf("✗ tuxcall系统调用不被支持\n");
            printf("  错误: %s\n", strerror(errno));
            return 0;
        } else {
            printf("? tuxcall系统调用存在但调用失败\n");
            printf("  错误: %s\n", strerror(errno));
            return 1;  // 系统调用存在但参数错误是正常的
        }
    } else {
        printf("✓ tuxcall系统调用支持\n");
        return 1;
    }
}

// 获取TUX版本信息
int get_tux_version() {
    char version_buffer[256];
    long result = syscall(SYS_tuxcall, TUX_VERSION, version_buffer, sizeof(version_buffer));
    
    if (result == -1) {
        printf("获取TUX版本失败: %s\n", strerror(errno));
        return -1;
    }
    
    printf("TUX版本: %s\n", version_buffer);
    return 0;
}

int main() {
    printf("=== tuxcall函数检测示例 ===\n");
    printf("注意: tuxcall是一个实验性功能，可能不被当前系统支持\n\n");
    
    // 检测系统支持
    if (!check_tuxcall_support()) {
        printf("\n由于系统不支持tuxcall，演示程序结束\n");
        printf("这在现代Linux系统中是正常现象\n");
        return 0;
    }
    
    // 尝试初始化TUX（如果支持）
    printf("\n尝试初始化TUX系统...\n");
    long init_result = syscall(SYS_tuxcall, TUX_INIT, NULL, NULL);
    if (init_result == -1) {
        if (errno == EPERM) {
            printf("初始化失败: 权限不足（需要root权限）\n");
        } else if (errno == ENODEV) {
            printf("初始化失败: TUX模块未加载\n");
        } else {
            printf("初始化失败: %s\n", strerror(errno));
        }
    } else {
        printf("TUX系统初始化成功\n");
    }
    
    // 尝试获取版本信息
    printf("\n获取TUX版本信息...\n");
    get_tux_version();
    
    // 演示统计信息获取
    printf("\n获取TUX统计信息...\n");
    struct {
        unsigned long requests;
        unsigned long cache_hits;
        unsigned long cache_misses;
        unsigned long errors;
    } stats;
    
    long stats_result = syscall(SYS_tuxcall, TUX_STATS, &stats, sizeof(stats));
    if (stats_result == -1) {
        printf("获取统计信息失败: %s\n", strerror(errno));
    } else {
        printf("TUX统计信息:\n");
        printf("  总请求数: %lu\n", stats.requests);
        printf("  缓存命中: %lu\n", stats.cache_hits);
        printf("  缓存未命中: %lu\n", stats.cache_misses);
        printf("  错误数: %lu\n", stats.errors);
    }
    
    printf("\n=== tuxcall检测完成 ===\n");
    printf("注意: 如果看到'系统调用不被支持'，这是正常现象\n");
    printf("现代Linux系统通常不包含TUX Web服务器支持\n");
    
    return 0;
}

示例2：模拟tuxcall接口（用于学习）

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/syscall.h>
#include <errno.h>
#include <string.h>
#include <time.h>

// 模拟TUX相关的数据结构和常量
#define TUX_MAX_CACHE_ENTRIES 1000

// 模拟的缓存项结构
typedef struct {
    char url[256];
    char content[1024];
    time_t timestamp;
    int valid;
} tux_cache_entry_t;

// 模拟的统计结构
typedef struct {
    unsigned long total_requests;
    unsigned long cache_hits;
    unsigned long cache_misses;
    unsigned long errors;
    time_t start_time;
} tux_stats_t;

// 模拟的TUX系统状态
static tux_cache_entry_t cache[TUX_MAX_CACHE_ENTRIES];
static tux_stats_t stats = {0};
static int tux_initialized = 0;

// TUX子调用类型
#define TUX_NOP         0
#define TUX_INIT        1
#define TUX_SHUTDOWN    2
#define TUX_VERSION     3
#define TUX_CACHE_ADD   4
#define TUX_CACHE_DEL   5
#define TUX_CACHE_LOOKUP 6
#define TUX_STATS       7
#define TUX_CLEAR_CACHE 8

// 模拟的tuxcall实现
long simulate_tuxcall(int subcall, void *arg1, void *arg2) {
    switch (subcall) {
        case TUX_NOP:
            return 0;
            
        case TUX_INIT:
            if (!tux_initialized) {
                memset(&stats, 0, sizeof(stats));
                stats.start_time = time(NULL);
                memset(cache, 0, sizeof(cache));
                tux_initialized = 1;
                printf("[模拟] TUX系统初始化完成\n");
            }
            return 0;
            
        case TUX_SHUTDOWN:
            if (tux_initialized) {
                tux_initialized = 0;
                printf("[模拟] TUX系统已关闭\n");
            }
            return 0;
            
        case TUX_VERSION:
            if (arg1 && arg2) {
                snprintf((char*)arg1, (size_t)arg2, "TUX Web Server 2.0 (模拟版本)");
                return 0;
            }
            errno = EINVAL;
            return -1;
            
        case TUX_CACHE_ADD:
            if (arg1) {
                // 简化的缓存添加逻辑
                printf("[模拟] 添加缓存项\n");
                stats.total_requests++;
                return 0;
            }
            errno = EINVAL;
            return -1;
            
        case TUX_CACHE_DEL:
            if (arg1) {
                printf("[模拟] 删除缓存项: %s\n", (char*)arg1);
                return 0;
            }
            errno = EINVAL;
            return -1;
            
        case TUX_CACHE_LOOKUP:
            if (arg1 && arg2) {
                printf("[模拟] 查找缓存项: %s\n", (char*)arg1);
                stats.total_requests++;
                stats.cache_misses++;
                // 模拟未找到
                return -1;
            }
            errno = EINVAL;
            return -1;
            
        case TUX_STATS:
            if (arg1 && arg2) {
                if ((size_t)arg2 >= sizeof(tux_stats_t)) {
                    memcpy(arg1, &stats, sizeof(tux_stats_t));
                    return 0;
                }
            }
            errno = EINVAL;
            return -1;
            
        case TUX_CLEAR_CACHE:
            memset(cache, 0, sizeof(cache));
            printf("[模拟] 缓存已清空\n");
            return 0;
            
        default:
            errno = EINVAL;
            return -1;
    }
}

// 模拟的系统调用封装
long my_tuxcall(int subcall, void *arg1, void *arg2) {
    // 在实际系统中，这里会调用真正的syscall
    // return syscall(SYS_tuxcall, subcall, arg1, arg2);
    
    // 现在我们模拟这个调用
    return simulate_tuxcall(subcall, arg1, arg2);
}

// 工具函数：显示TUX状态
void show_tux_status() {
    printf("\n=== TUX系统状态 ===\n");
    printf("初始化状态: %s\n", tux_initialized ? "已初始化" : "未初始化");
    if (tux_initialized) {
        printf("运行时间: %ld 秒\n", time(NULL) - stats.start_time);
    }
    printf("==================\n\n");
}

int main() {
    printf("=== 模拟tuxcall接口示例 ===\n");
    printf("注意: 这是一个模拟实现，用于演示tuxcall的概念\n\n");
    
    // 显示初始状态
    show_tux_status();
    
    // 测试初始化
    printf("1. 测试TUX初始化:\n");
    if (my_tuxcall(TUX_INIT, NULL, NULL) == 0) {
        printf("✓ 初始化成功\n");
    } else {
        printf("✗ 初始化失败: %s\n", strerror(errno));
    }
    
    show_tux_status();
    
    // 测试版本获取
    printf("2. 测试版本获取:\n");
    char version[256];
    if (my_tuxcall(TUX_VERSION, version, sizeof(version)) == 0) {
        printf("✓ TUX版本: %s\n", version);
    } else {
        printf("✗ 获取版本失败: %s\n", strerror(errno));
    }
    
    // 测试缓存操作
    printf("\n3. 测试缓存操作:\n");
    
    // 添加缓存项
    const char* test_url = "/index.html";
    if (my_tuxcall(TUX_CACHE_ADD, (void*)test_url, NULL) == 0) {
        printf("✓ 添加缓存项: %s\n", test_url);
    } else {
        printf("✗ 添加缓存项失败: %s\n", strerror(errno));
    }
    
    // 查找缓存项
    if (my_tuxcall(TUX_CACHE_LOOKUP, (void*)test_url, NULL) == 0) {
        printf("✓ 缓存命中: %s\n", test_url);
    } else {
        printf("✗ 缓存未命中: %s\n", test_url);
    }
    
    // 删除缓存项
    if (my_tuxcall(TUX_CACHE_DEL, (void*)test_url, NULL) == 0) {
        printf("✓ 删除缓存项: %s\n", test_url);
    } else {
        printf("✗ 删除缓存项失败: %s\n", strerror(errno));
    }
    
    // 测试统计信息
    printf("\n4. 测试统计信息:\n");
    tux_stats_t current_stats;
    if (my_tuxcall(TUX_STATS, &current_stats, sizeof(current_stats)) == 0) {
        printf("✓ 获取统计信息成功:\n");
        printf("  总请求数: %lu\n", current_stats.total_requests);
        printf("  缓存命中: %lu\n", current_stats.cache_hits);
        printf("  缓存未命中: %lu\n", current_stats.cache_misses);
        printf("  错误数: %lu\n", current_stats.errors);
        printf("  运行时间: %ld 秒\n", time(NULL) - current_stats.start_time);
    } else {
        printf("✗ 获取统计信息失败: %s\n", strerror(errno));
    }
    
    // 测试缓存清空
    printf("\n5. 测试缓存清空:\n");
    if (my_tuxcall(TUX_CLEAR_CACHE, NULL, NULL) == 0) {
        printf("✓ 缓存清空成功\n");
    } else {
        printf("✗ 缓存清空失败: %s\n", strerror(errno));
    }
    
    // 测试关闭
    printf("\n6. 测试TUX关闭:\n");
    if (my_tuxcall(TUX_SHUTDOWN, NULL, NULL) == 0) {
        printf("✓ TUX系统关闭成功\n");
    } else {
        printf("✗ TUX系统关闭失败: %s\n", strerror(errno));
    }
    
    show_tux_status();
    
    // 测试错误处理
    printf("7. 测试错误处理:\n");
    if (my_tuxcall(999, NULL, NULL) == -1) {
        printf("✓ 无效子调用正确返回错误: %s\n", strerror(errno));
    }
    
    if (my_tuxcall(TUX_STATS, NULL, NULL) == -1) {
        printf("✓ 无效参数正确返回错误: %s\n", strerror(errno));
    }
    
    printf("\n=== 模拟演示完成 ===\n");
    printf("说明: 这是一个概念演示，展示了tuxcall可能的功能\n");
    printf("实际的tuxcall需要内核支持，现代系统通常不包含此功能\n");
    
    return 0;
}

示例3：tuxcall与Web服务器集成概念

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/syscall.h>
#include <errno.h>
#include <string.h>
#include <time.h>

// Web服务器配置结构
typedef struct {
    int port;
    int max_connections;
    int cache_size;
    char document_root[256];
    int enable_logging;
} web_config_t;

// HTTP请求结构
typedef struct {
    char method[16];
    char url[256];
    char version[16];
    char headers[1024];
} http_request_t;

// HTTP响应结构
typedef struct {
    int status_code;
    char status_text[64];
    char headers[512];
    char* body;
    size_t body_length;
} http_response_t;

// 模拟的TUX相关常量
#define TUX_WEB_INIT        10
#define TUX_WEB_CONFIGURE   11
#define TUX_WEB_HANDLE_REQ  12
#define TUX_WEB_SHUTDOWN    13
#define TUX_WEB_GET_METRICS 14

// 模拟的Web服务器状态
static int web_server_running = 0;
static web_config_t current_config = {0};
static unsigned long total_requests = 0;
static unsigned long served_pages = 0;
static unsigned long errors = 0;

// 模拟的tuxcall Web服务器接口
long web_tuxcall(int subcall, void *arg1, void *arg2) {
    switch (subcall) {
        case TUX_WEB_INIT:
            if (!web_server_running) {
                web_server_running = 1;
                total_requests = 0;
                served_pages = 0;
                errors = 0;
                printf("[Web服务器] 初始化完成\n");
                return 0;
            }
            return 0;
            
        case TUX_WEB_CONFIGURE:
            if (arg1 && web_server_running) {
                memcpy(&current_config, arg1, sizeof(web_config_t));
                printf("[Web服务器] 配置更新完成\n");
                printf("  端口: %d\n", current_config.port);
                printf("  最大连接数: %d\n", current_config.max_connections);
                printf("  文档根目录: %s\n", current_config.document_root);
                return 0;
            }
            errno = EINVAL;
            return -1;
            
        case TUX_WEB_HANDLE_REQ:
            if (arg1 && arg2 && web_server_running) {
                http_request_t *req = (http_request_t*)arg1;
                http_response_t *resp = (http_response_t*)arg2;
                
                total_requests++;
                
                printf("[Web服务器] 处理请求: %s %s\n", req->method, req->url);
                
                // 简单的请求处理逻辑
                if (strcmp(req->url, "/") == 0 || strcmp(req->url, "/index.html") == 0) {
                    resp->status_code = 200;
                    strcpy(resp->status_text, "OK");
                    resp->body = "<html><body><h1>Hello from TUX Web Server!</h1></body></html>";
                    resp->body_length = strlen(resp->body);
                    served_pages++;
                    return 0;
                } else if (strcmp(req->url, "/status") == 0) {
                    resp->status_code = 200;
                    strcpy(resp->status_text, "OK");
                    static char status_page[512];
                    snprintf(status_page, sizeof(status_page),
                             "<html><body><h1>Server Status</h1>"
                             "<p>Total Requests: %lu</p>"
                             "<p>Served Pages: %lu</p>"
                             "<p>Errors: %lu</p></body></html>",
                             total_requests, served_pages, errors);
                    resp->body = status_page;
                    resp->body_length = strlen(status_page);
                    served_pages++;
                    return 0;
                } else {
                    resp->status_code = 404;
                    strcpy(resp->status_text, "Not Found");
                    resp->body = "<html><body><h1>404 - Page Not Found</h1></body></html>";
                    resp->body_length = strlen(resp->body);
                    errors++;
                    return 0;
                }
            }
            errno = EINVAL;
            return -1;
            
        case TUX_WEB_SHUTDOWN:
            if (web_server_running) {
                web_server_running = 0;
                printf("[Web服务器] 已关闭\n");
                return 0;
            }
            return 0;
            
        case TUX_WEB_GET_METRICS:
            if (arg1 && arg2) {
                size_t *size = (size_t*)arg2;
                if (*size >= sizeof(unsigned long) * 3) {
                    unsigned long *metrics = (unsigned long*)arg1;
                    metrics[0] = total_requests;
                    metrics[1] = served_pages;
                    metrics[2] = errors;
                    return 0;
                }
            }
            errno = EINVAL;
            return -1;
            
        default:
            errno = EINVAL;
            return -1;
    }
}

// 模拟的系统调用封装
long my_web_tuxcall(int subcall, void *arg1, void *arg2) {
    return web_tuxcall(subcall, arg1, arg2);
}

// 创建测试请求
void create_test_request(http_request_t *req, const char* method, const char* url) {
    strncpy(req->method, method, sizeof(req->method) - 1);
    strncpy(req->url, url, sizeof(req->url) - 1);
    strcpy(req->version, "HTTP/1.1");
    strcpy(req->headers, "Host: localhost\r\nUser-Agent: tuxcall-test\r\n");
}

// 显示响应
void show_response(const http_response_t *resp) {
    printf("HTTP/%s %d %s\n", "1.1", resp->status_code, resp->status_text);
    printf("Content-Length: %zu\n", resp->body_length);
    printf("\n%s\n", resp->body ? resp->body : "");
}

int main() {
    printf("=== tuxcall Web服务器概念演示 ===\n");
    printf("说明: 演示tuxcall在Web服务器中的潜在应用\n\n");
    
    // 1. 初始化Web服务器
    printf("1. 初始化Web服务器:\n");
    if (my_web_tuxcall(TUX_WEB_INIT, NULL, NULL) == 0) {
        printf("✓ Web服务器初始化成功\n\n");
    } else {
        printf("✗ Web服务器初始化失败\n");
        return 1;
    }
    
    // 2. 配置Web服务器
    printf("2. 配置Web服务器:\n");
    web_config_t config = {
        .port = 8080,
        .max_connections = 1000,
        .cache_size = 100,
        .document_root = "/var/www",
        .enable_logging = 1
    };
    
    if (my_web_tuxcall(TUX_WEB_CONFIGURE, &config, NULL) == 0) {
        printf("✓ Web服务器配置完成\n\n");
    } else {
        printf("✗ Web服务器配置失败\n");
    }
    
    // 3. 处理HTTP请求
    printf("3. 处理HTTP请求:\n");
    
    http_request_t request;
    http_response_t response;
    
    // 测试主页请求
    printf("处理主页请求:\n");
    create_test_request(&request, "GET", "/");
    memset(&response, 0, sizeof(response));
    
    if (my_web_tuxcall(TUX_WEB_HANDLE_REQ, &request, &response) == 0) {
        show_response(&response);
    } else {
        printf("处理请求失败: %s\n", strerror(errno));
    }
    
    // 测试状态页面请求
    printf("处理状态页面请求:\n");
    create_test_request(&request, "GET", "/status");
    memset(&response, 0, sizeof(response));
    
    if (my_web_tuxcall(TUX_WEB_HANDLE_REQ, &request, &response) == 0) {
        show_response(&response);
    } else {
        printf("处理请求失败: %s\n", strerror(errno));
    }
    
    // 测试404页面请求
    printf("处理404页面请求:\n");
    create_test_request(&request, "GET", "/nonexistent.html");
    memset(&response, 0, sizeof(response));
    
    if (my_web_tuxcall(TUX_WEB_HANDLE_REQ, &request, &response) == 0) {
        show_response(&response);
    } else {
        printf("处理请求失败: %s\n", strerror(errno));
    }
    
    // 4. 获取服务器指标
    printf("4. 获取服务器指标:\n");
    unsigned long metrics[3];
    size_t metrics_size = sizeof(metrics);
    
    if (my_web_tuxcall(TUX_WEB_GET_METRICS, metrics, &metrics_size) == 0) {
        printf("服务器运行指标:\n");
        printf("  总请求数: %lu\n", metrics[0]);
        printf("  服务页面数: %lu\n", metrics[1]);
        printf("  错误数: %lu\n", metrics[2]);
    } else {
        printf("获取指标失败: %s\n", strerror(errno));
    }
    
    // 5. 性能测试
    printf("\n5. 性能测试:\n");
    printf("模拟处理1000个请求...\n");
    
    time_t start_time = time(NULL);
    
    for (int i = 0; i < 1000; i++) {
        create_test_request(&request, "GET", i % 3 == 0 ? "/" : 
                           (i % 3 == 1 ? "/status" : "/test"));
        my_web_tuxcall(TUX_WEB_HANDLE_REQ, &request, &response);
    }
    
    time_t end_time = time(NULL);
    printf("处理1000个请求耗时: %ld 秒\n", end_time - start_time);
    
    // 再次获取指标
    if (my_web_tuxcall(TUX_WEB_GET_METRICS, metrics, &metrics_size) == 0) {
        printf("更新后的指标:\n");
        printf("  总请求数: %lu\n", metrics[0]);
        printf("  服务页面数: %lu\n", metrics[1]);
        printf("  错误数: %lu\n", metrics[2]);
    }
    
    // 6. 关闭Web服务器
    printf("\n6. 关闭Web服务器:\n");
    if (my_web_tuxcall(TUX_WEB_SHUTDOWN, NULL, NULL) == 0) {
        printf("✓ Web服务器已关闭\n");
    } else {
        printf("✗ 关闭Web服务器失败\n");
    }
    
    printf("\n=== Web服务器演示完成 ===\n");
    printf("说明: 这展示了tuxcall在高性能Web服务器中的潜在应用\n");
    printf("实际使用需要内核支持TUX模块\n");
    
    return 0;
}

编译和运行

# 编译示例1
gcc -o tuxcall_example1 tuxcall_example1.c
./tuxcall_example1

# 编译示例2
gcc -o tuxcall_example2 tuxcall_example2.c
./tuxcall_example2

# 编译示例3
gcc -o tuxcall_example3 tuxcall_example3.c
./tuxcall_example3

重要注意事项

实验性功能: tuxcall是Linux内核的实验性功能，现代系统通常不支持
内核依赖: 需要特定的内核配置和TUX模块支持
系统调用号: tuxcall的系统调用号在不同内核版本中可能不同
权限要求: 某些操作可能需要root权限
兼容性: 不是标准POSIX接口，可移植性差
维护状态: TUX项目已经不再积极维护
替代方案: 现代高性能Web服务器通常使用用户空间解决方案

现代替代方案

由于tuxcall的局限性，现代高性能Web服务器通常采用：

epoll/kqueue: 高效的I/O多路复用
sendfile/splice: 零拷贝数据传输
异步I/O: 提高并发处理能力
用户空间Web服务器: 如Nginx、Apache等
内核旁路技术: 如DPDK等

通过这些示例，你可以理解tuxcall作为内核级Web服务器接口的概念，虽然在现代系统中很少使用，但它体现了Linux内核网络性能优化的设计思想。

发表在 linux文章 | 留下评论

umask系统调用及示例

发表于2025-08-08由麦芽爸

我们来深入学习 umask 系统调用

1. 函数介绍

在 Linux 系统中，每个文件和目录都有与之相关的权限（Permissions），这些权限决定了谁（用户、组、其他人）可以对文件或目录执行什么操作（读、写、执行）。

当你创建一个新文件或目录时，系统需要决定这个新文件/目录的初始权限是什么。你可能会想当然地认为，比如用 touch newfile.txt 创建文件，这个文件的权限应该是 rw-rw-rw- (666)，即所有用户都可读写。但实际上，Linux 为了安全，默认创建的文件权限会更严格一些。

umask (User File Creation Mask) 不是一个系统调用，而是一个 shell 内置命令 和一个 C 标准库函数。它用于设置或查询当前用户的文件权限掩码。

这个“掩码”就像一个“过滤器”或“模具”。当你创建一个新文件或目录时，系统会先有一个“默认”的宽松权限（文件是 666，目录是 777），然后用 umask 的值来“过滤”掉（屏蔽掉）其中某些权限位，最终得到文件或目录的实际权限。

简单来说，umask 就是让你设置一个“权限过滤器”，决定了你新建的文件和目录默认有多“开放”。

典型应用场景：

用户自定义默认权限：用户可以通过 umask 命令设置自己的默认权限偏好。例如，设置 umask 077 可以让新建的文件和目录只有自己能访问，提高隐私性。
程序设置安全默认值：编写程序时，可以在程序开始时调用 umask() 来设置一个安全的掩码，确保程序创建的临时文件等不会被其他用户意外访问。

2. 函数原型

#include <sys/stat.h> // 包含 umask 函数声明

// 设置文件权限掩码并返回旧的掩码
mode_t umask(mode_t mask);

3. 功能

设置调用进程（及其子进程）的文件权限创建掩码为 mask，并返回调用前的旧掩码。

4. 参数

mask:
- mode_t 类型。
- 指定新的文件权限掩码。这个值通常用八进制表示（以 0 开头，如 022, 077, 002）。
- 掩码中的位为 1 表示对应的权限将被屏蔽（从默认权限中移除）。
- 掩码中的位为 0 表示对应的权限不会被屏蔽（保留默认权限中的该位）。

5. 返回值

总是返回调用 umask 之前的旧掩码。这使得程序可以临时改变掩码，用完后再恢复。

6. 权限计算方式

这是理解 umask 的关键：

确定默认权限：
- 新文件：默认权限是 666 (rw-rw-rw-)。
- 新目录：默认权限是 777 (rwxrwxrwx)。
应用掩码：将默认权限与 umask 进行按位与非 (& ~) 操作。
- 最终权限 = 默认权限 & (~ umask)

示例：

umask 022:
- 文件默认权限：666 (110 110 110)
- umask：022 (000 010 010)
- ~umask：755 (111 101 101)
- 文件最终权限：666 & 755 = 644 (rw-r–r–)
- 目录默认权限：777 (111 111 111)
- 目录最终权限：777 & 755 = 755 (rwxr-xr-x)
- 效果：同组用户和其他用户失去了写权限。
umask 077:
- 文件默认权限：666 (110 110 110)
- umask：077 (000 111 111)
- ~umask：700 (111 000 000)
- 文件最终权限：666 & 700 = 600 (rw——-)
- 目录默认权限：777 (111 111 111)
- 目录最终权限：777 & 700 = 700 (rwx——)
- 效果：只有文件所有者有权限，同组和其他用户没有任何权限。这是非常私密的设置。
umask 002:
- 文件默认权限：666 (110 110 110)
- umask：002 (000 000 010)
- ~umask：775 (111 111 101)
- 文件最终权限：666 & 775 = 664 (rw-rw-r–)
- 目录默认权限：777 (111 111 111)
- 目录最终权限：777 & 775 = 775 (rwxrwxr-x)
- 效果：只有“其他人”失去了写权限，组内用户有完全权限。常用于协作环境。

7. 相似函数或关联函数

chmod: 用于更改已存在文件或目录的权限。
mkdir / open / creat: 这些创建文件或目录的函数会受到 umask 的影响。
umask shell 命令: 用于在 shell 中查看或设置当前 shell 会话的 umask 值。

8. 示例代码

下面的示例演示了如何在 C 程序中使用 umask() 函数来控制创建文件和目录的默认权限。

#define _GNU_SOURCE // 启用 GNU 扩展
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/stat.h> // 包含 umask, mkdir, stat
#include <fcntl.h>    // 包含 open, O_* flags
#include <string.h>
#include <errno.h>

// 辅助函数：将 mode_t 转换为字符串表示 (简化版)
void print_permissions(mode_t mode) {
    printf( (mode & S_IRUSR) ? "r" : "-");
    printf( (mode & S_IWUSR) ? "w" : "-");
    printf( (mode & S_IXUSR) ? "x" : "-");
    printf( (mode & S_IRGRP) ? "r" : "-");
    printf( (mode & S_IWGRP) ? "w" : "-");
    printf( (mode & S_IXGRP) ? "x" : "-");
    printf( (mode & S_IROTH) ? "r" : "-");
    printf( (mode & S_IWOTH) ? "w" : "-");
    printf( (mode & S_IXOTH) ? "x" : "-");
}

// 辅助函数：获取并打印文件/目录的权限
void check_permissions(const char* path) {
    struct stat sb;
    if (stat(path, &sb) == 0) {
        printf("Permissions for '%s': ", path);
        print_permissions(sb.st_mode);
        printf(" (%o)\n", sb.st_mode & (S_IRWXU | S_IRWXG | S_IRWXO));
    } else {
        perror("stat");
    }
}

int main() {
    mode_t old_mask;
    int fd;

    printf("--- Demonstrating umask ---\n");
    printf("PID: %d\n", getpid());

    // 1. 查看当前的 umask 值
    // 通过设置 umask(0) 并立即恢复旧值来查询
    old_mask = umask(0);
    umask(old_mask); // 立即恢复
    printf("Initial umask: %03o\n", old_mask);

    // 2. 创建文件和目录，使用初始 umask
    printf("\n--- Creating files/dirs with initial umask ---\n");
    fd = open("file_with_initial_umask.txt", O_CREAT | O_WRONLY | O_TRUNC, 0666);
    if (fd != -1) close(fd);
    mkdir("dir_with_initial_umask", 0777);
    check_permissions("file_with_initial_umask.txt");
    check_permissions("dir_with_initial_umask");

    // 3. 改变 umask 为 077 (非常私密)
    printf("\n--- Changing umask to 077 ---\n");
    old_mask = umask(0077); // 返回旧的 umask
    printf("Old umask was: %03o\n", old_mask);
    printf("New umask is: 077\n");

    // 4. 再次创建文件和目录
    fd = open("file_with_umask_077.txt", O_CREAT | O_WRONLY | O_TRUNC, 0666);
    if (fd != -1) close(fd);
    mkdir("dir_with_umask_077", 0777);
    check_permissions("file_with_umask_077.txt");
    check_permissions("dir_with_umask_077");

    // 5. 改变 umask 为 002 (组协作)
    printf("\n--- Changing umask to 002 ---\n");
    old_mask = umask(0002);
    printf("Old umask was: %03o\n", old_mask);
    printf("New umask is: 002\n");

    // 6. 再次创建文件和目录
    fd = open("file_with_umask_002.txt", O_CREAT | O_WRONLY | O_TRUNC, 0666);
    if (fd != -1) close(fd);
    mkdir("dir_with_umask_002", 0777);
    check_permissions("file_with_umask_002.txt");
    check_permissions("dir_with_umask_002");

    // 7. 恢复原始 umask
    printf("\n--- Restoring original umask ---\n");
    umask(old_mask);
    printf("Restored umask to: %03o\n", old_mask);

    printf("\n--- Summary ---\n");
    printf("1. umask acts as a filter on default permissions (666 for files, 777 for dirs).\n");
    printf("2. Bits set to 1 in umask REMOVE the corresponding permission.\n");
    printf("3. umask 022: Owner has full access, Group/Others have read/execute (not write).\n");
    printf("4. umask 077: Only Owner has access (very private).\n");
    printf("5. umask 002: Owner/Group have full access, Others lack write (collaborative).\n");
    printf("6. The umask set in a program affects files/dirs it creates.\n");

    // 8. 清理 (可选)
    // unlink("file_with_initial_umask.txt");
    // rmdir("dir_with_initial_umask");
    // unlink("file_with_umask_077.txt");
    // rmdir("dir_with_umask_077");
    // unlink("file_with_umask_002.txt");
    // rmdir("dir_with_umask_002");

    return 0;
}

9. 编译和运行

# 假设代码保存在 umask_example.c 中
gcc -o umask_example umask_example.c

# 运行程序
./umask_example

10. 预期输出 (取决于你运行时的初始 umask)

假设你的初始 umask 是 022：

--- Demonstrating umask ---
PID: 12345
Initial umask: 022

--- Creating files/dirs with initial umask ---
Permissions for 'file_with_initial_umask.txt': rw-r--r-- (644)
Permissions for 'dir_with_initial_umask': rwxr-xr-x (755)

--- Changing umask to 077 ---
Old umask was: 022
New umask is: 077
Permissions for 'file_with_umask_077.txt': rw------- (600)
Permissions for 'dir_with_umask_077': rwx------ (700)

--- Changing umask to 002 ---
Old umask was: 077
New umask is: 002
Permissions for 'file_with_umask_002.txt': rw-rw-r-- (664)
Permissions for 'dir_with_umask_002': rwxrwxr-x (775)

--- Restoring original umask ---
Restored umask to: 002

--- Summary ---
1. umask acts as a filter on default permissions (666 for files, 777 for dirs).
2. Bits set to 1 in umask REMOVE the corresponding permission.
3. umask 022: Owner has full access, Group/Others have read/execute (not write).
4. umask 077: Only Owner has access (very private).
5. umask 002: Owner/Group have full access, Others lack write (collaborative).
6. The umask set in a program affects files/dirs it creates.

11. 在 Shell 中使用 `umask` 命令

你也可以直接在终端中使用 umask 命令：

# 查看当前 umask
umask

# 设置 umask 为 077
umask 077

# 创建一个文件测试权限
touch test_file_umask_077.txt
ls -l test_file_umask_077.txt
# 输出类似：-rw------- 1 user user 0 date time test_file_umask_077.txt

# 恢复为常见的 022
umask 022
touch test_file_umask_022.txt
ls -l test_file_umask_022.txt
# 输出类似：-rw-r--r-- 1 user user 0 date time test_file_umask_022.txt

12. 总结

umask() 函数（以及 umask shell 命令）是 Linux 系统中控制新建文件和目录默认权限的重要工具。

它通过一个“掩码”来过滤掉默认权限中的某些位。
理解其计算方式（默认权限 & ~umask）是掌握它的关键。
常见的 umask 值：
- 022：最常见的默认值，保护文件不被同组和他人修改。
- 077：最私密，只有所有者能访问。
- 002：协作环境常用，保护文件不被他人修改，但同组用户有完全权限。
在编写需要创建文件的程序时，合理设置 umask 可以增强程序的安全性。
它只影响新创建的文件和目录，不影响已存在的文件。

发表在 linux文章 | 留下评论

umount2系统调用及示例

发表于2025-08-08由麦芽爸

umount2 函数详解

1. 函数介绍

umount2 是Linux系统调用，用于卸载文件系统。它是 umount 函数的增强版本，支持更多的卸载选项和标志。通过 umount2，程序可以更精细地控制文件系统的卸载过程，包括强制卸载、延迟卸载等高级功能。

2. 函数原型

#include <sys/mount.h>
int umount2(const char *target, int flags);

3. 功能

umount2 卸载指定挂载点的文件系统，并支持多种卸载标志来控制卸载行为。它可以处理繁忙的文件系统、只读文件系统等情况，提供更灵活的卸载选项。

4. 参数

*const char target: 要卸载的文件系统挂载点路径
int flags: 卸载标志，控制卸载行为

5. 返回值

成功: 返回0
失败: 返回-1，并设置errno

6. 相似函数，或关联函数

umount: 基础卸载函数（等同于umount2(target, 0)）
mount: 挂载文件系统
getmntent: 获取挂载信息
/proc/mounts: 挂载信息文件

7. 示例代码

示例1：基础umount2使用

#include <sys/mount.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <sys/stat.h>
#include <fcntl.h>

/**
 * 显示当前挂载信息
 */
void show_mount_info() {
    printf("=== 当前挂载信息 ===\n");
    system("cat /proc/mounts | head -10");  // 显示前10行挂载信息
    printf("\n");
}

/**
 * 创建测试挂载点
 */
int create_test_mountpoint(const char *mountpoint) {
    struct stat st;
    
    // 检查挂载点是否存在
    if (stat(mountpoint, &st) == 0) {
        printf("挂载点 %s 已存在\n", mountpoint);
        return 0;
    }
    
    // 创建挂载点目录
    if (mkdir(mountpoint, 0755) == -1) {
        perror("创建挂载点目录失败");
        return -1;
    }
    
    printf("创建挂载点: %s\n", mountpoint);
    return 0;
}

/**
 * 演示基础umount2使用方法
 */
int demo_umount2_basic() {
    const char *test_mountpoint = "/tmp/test_umount2";
    int result;
    
    printf("=== 基础umount2使用示例 ===\n");
    
    // 显示原始挂载信息
    printf("1. 原始挂载信息:\n");
    show_mount_info();
    
    // 创建测试挂载点
    printf("2. 创建测试挂载点:\n");
    if (create_test_mountpoint(test_mountpoint) != 0) {
        return -1;
    }
    
    // 尝试卸载不存在的挂载点（演示错误处理）
    printf("3. 尝试卸载不存在的挂载点:\n");
    printf("   卸载目标: %s\n", test_mountpoint);
    
    result = umount2(test_mountpoint, 0);
    if (result == -1) {
        printf("   ✓ 卸载失败（预期结果）: %s\n", strerror(errno));
        if (errno == EINVAL) {
            printf("   原因：指定的挂载点不存在\n");
        } else if (errno == EPERM) {
            printf("   原因：权限不足\n");
        } else if (errno == EBUSY) {
            printf("   原因：挂载点正忙\n");
        }
    } else {
        printf("   ✗ 卸载意外成功\n");
    }
    
    // 演示不同卸载标志
    printf("\n4. 卸载标志说明:\n");
    printf("   0: 普通卸载\n");
    printf("   MNT_FORCE: 强制卸载\n");
    printf("   MNT_DETACH: 延迟卸载\n");
    printf("   MNT_EXPIRE: 标记为过期\n");
    
    // 清理测试挂载点
    printf("\n5. 清理测试挂载点:\n");
    if (rmdir(test_mountpoint) == 0) {
        printf("   ✓ 测试挂载点清理成功\n");
    } else {
        printf("   ✗ 测试挂载点清理失败: %s\n", strerror(errno));
    }
    
    return 0;
}

int main() {
    return demo_umount2_basic();
}

示例2：文件系统挂载和卸载管理

#include <sys/mount.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <mntent.h>

/**
 * 挂载点管理器结构
 */
typedef struct {
    char mountpoint[256];
    char filesystem[32];
    char device[256];
    int is_mounted;
    unsigned long mount_options;
} mount_manager_t;

/**
 * 初始化挂载点管理器
 */
int init_mount_manager(mount_manager_t *manager, const char *mountpoint, 
                      const char *device, const char *filesystem) {
    strncpy(manager->mountpoint, mountpoint, sizeof(manager->mountpoint) - 1);
    manager->mountpoint[sizeof(manager->mountpoint) - 1] = '\0';
    
    strncpy(manager->device, device, sizeof(manager->device) - 1);
    manager->device[sizeof(manager->device) - 1] = '\0';
    
    strncpy(manager->filesystem, filesystem, sizeof(manager->filesystem) - 1);
    manager->filesystem[sizeof(manager->filesystem) - 1] = '\0';
    
    manager->is_mounted = 0;
    manager->mount_options = 0;
    
    printf("挂载点管理器初始化:\n");
    printf("  挂载点: %s\n", manager->mountpoint);
    printf("  设备: %s\n", manager->device);
    printf("  文件系统: %s\n", manager->filesystem);
    
    return 0;
}

/**
 * 检查挂载点是否存在
 */
int is_mountpoint_exists(const char *mountpoint) {
    FILE *fp = setmntent("/proc/mounts", "r");
    if (!fp) {
        return -1;
    }
    
    struct mntent *mnt;
    int exists = 0;
    
    while ((mnt = getmntent(fp)) != NULL) {
        if (strcmp(mnt->mnt_dir, mountpoint) == 0) {
            exists = 1;
            break;
        }
    }
    
    endmntent(fp);
    return exists;
}

/**
 * 挂载文件系统
 */
int mount_filesystem(mount_manager_t *manager) {
    // 创建挂载点
    struct stat st;
    if (stat(manager->mountpoint, &st) == -1) {
        if (mkdir(manager->mountpoint, 0755) == -1) {
            perror("创建挂载点失败");
            return -1;
        }
        printf("创建挂载点: %s\n", manager->mountpoint);
    }
    
    // 执行挂载
    printf("挂载文件系统:\n");
    printf("  设备: %s\n", manager->device);
    printf("  挂载点: %s\n", manager->mountpoint);
    printf("  文件系统: %s\n", manager->filesystem);
    
    // 注意：实际挂载需要root权限和有效设备
    // 这里仅演示调用方式
    printf("  注意：实际挂载需要root权限和有效设备\n");
    
    manager->is_mounted = 1;
    return 0;
}

/**
 * 卸载文件系统（使用umount2）
 */
int unmount_filesystem(mount_manager_t *manager, int flags) {
    printf("卸载文件系统:\n");
    printf("  挂载点: %s\n", manager->mountpoint);
    printf("  卸载标志: 0x%x\n", flags);
    
    // 检查挂载点是否存在
    if (!is_mountpoint_exists(manager->mountpoint)) {
        printf("  挂载点不存在，无需卸载\n");
        manager->is_mounted = 0;
        return 0;
    }
    
    // 执行卸载
    int result = umount2(manager->mountpoint, flags);
    if (result == 0) {
        printf("  ✓ 文件系统卸载成功\n");
        manager->is_mounted = 0;
        
        // 清理挂载点目录
        if (rmdir(manager->mountpoint) == 0) {
            printf("  ✓ 挂载点目录清理成功\n");
        } else {
            printf("  ✗ 挂载点目录清理失败: %s\n", strerror(errno));
        }
    } else {
        printf("  ✗ 文件系统卸载失败: %s\n", strerror(errno));
        if (errno == EBUSY) {
            printf("    原因：文件系统正忙\n");
        } else if (errno == EINVAL) {
            printf("    原因：无效的挂载点\n");
        } else if (errno == EPERM) {
            printf("    原因：权限不足\n");
        }
    }
    
    return result;
}

/**
 * 演示文件系统挂载和卸载管理
 */
int demo_filesystem_management() {
    mount_manager_t manager;
    const char *test_mountpoint = "/tmp/test_fs_manager";
    const char *test_device = "/dev/loop0";  // 示例设备
    const char *test_filesystem = "ext4";
    
    printf("=== 文件系统挂载和卸载管理演示 ===\n");
    
    // 初始化管理器
    printf("1. 初始化挂载点管理器:\n");
    if (init_mount_manager(&manager, test_mountpoint, test_device, test_filesystem) != 0) {
        return -1;
    }
    
    // 显示当前挂载状态
    printf("\n2. 当前挂载状态检查:\n");
    int exists = is_mountpoint_exists(manager.mountpoint);
    if (exists == 1) {
        printf("  挂载点已存在\n");
    } else if (exists == 0) {
        printf("  挂载点不存在\n");
    } else {
        printf("  无法检查挂载状态\n");
    }
    
    // 模拟挂载操作
    printf("\n3. 模拟挂载操作:\n");
    if (mount_filesystem(&manager) != 0) {
        printf("挂载操作失败\n");
        return -1;
    }
    
    // 演示不同卸载方式
    printf("\n4. 演示不同卸载方式:\n");
    
    // 方式1：普通卸载
    printf("  方式1：普通卸载 (MNT_UMOUNT):\n");
    unmount_filesystem(&manager, 0);
    
    // 方式2：强制卸载
    printf("\n  方式2：强制卸载 (MNT_FORCE):\n");
    unmount_filesystem(&manager, MNT_FORCE);
    
    // 方式3：延迟卸载
    printf("\n  方式3：延迟卸载 (MNT_DETACH):\n");
    unmount_filesystem(&manager, MNT_DETACH);
    
    // 方式4：过期卸载
    printf("\n  方式4：过期卸载 (MNT_EXPIRE):\n");
    unmount_filesystem(&manager, MNT_EXPIRE);
    
    // 显示最终状态
    printf("\n5. 最终状态:\n");
    printf("  挂载点状态: %s\n", manager.is_mounted ? "已挂载" : "未挂载");
    
    return 0;
}

int main() {
    return demo_filesystem_management();
}

示例3：安全卸载工具

#include <sys/mount.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <mntent.h>
#include <signal.h>
#include <sys/wait.h>

/**
 * 安全卸载结果结构
 */
typedef struct {
    char mountpoint[256];
    int attempts;
    int success;
    int force_used;
    int detach_used;
    int final_status;
    char error_message[256];
} safe_unmount_result_t;

/**
 * 检查挂载点是否正在使用
 */
int is_mountpoint_busy(const char *mountpoint) {
    // 检查是否有进程在使用该挂载点
    char command[512];
    snprintf(command, sizeof(command), "lsof %s 2>/dev/null | wc -l", mountpoint);
    
    FILE *fp = popen(command, "r");
    if (fp) {
        char buffer[16];
        if (fgets(buffer, sizeof(buffer), fp)) {
            int count = atoi(buffer);
            pclose(fp);
            return count > 0;
        }
        pclose(fp);
    }
    
    return 0;  // 默认认为不忙
}

/**
 * 显示挂载点信息
 */
void show_mountpoint_info(const char *mountpoint) {
    FILE *fp = setmntent("/proc/mounts", "r");
    if (!fp) {
        printf("无法读取挂载信息\n");
        return;
    }
    
    struct mntent *mnt;
    printf("挂载点详细信息:\n");
    
    while ((mnt = getmntent(fp)) != NULL) {
        if (strcmp(mnt->mnt_dir, mountpoint) == 0) {
            printf("  设备: %s\n", mnt->mnt_fsname);
            printf("  挂载点: %s\n", mnt->mnt_dir);
            printf("  文件系统: %s\n", mnt->mnt_type);
            printf("  选项: %s\n", mnt->mnt_opts);
            break;
        }
    }
    
    endmntent(fp);
}

/**
 * 安全卸载文件系统
 */
int safe_unmount_filesystem(const char *mountpoint, safe_unmount_result_t *result) {
    int attempt = 0;
    const int max_attempts = 5;
    int result_code = 0;
    
    // 初始化结果结构
    strncpy(result->mountpoint, mountpoint, sizeof(result->mountpoint) - 1);
    result->mountpoint[sizeof(result->mountpoint) - 1] = '\0';
    result->attempts = 0;
    result->success = 0;
    result->force_used = 0;
    result->detach_used = 0;
    result->final_status = 0;
    result->error_message[0] = '\0';
    
    printf("=== 安全卸载文件系统 ===\n");
    printf("目标挂载点: %s\n", mountpoint);
    
    // 检查挂载点是否存在
    if (!is_mountpoint_exists(mountpoint)) {
        printf("挂载点不存在，无需卸载\n");
        result->success = 1;
        return 0;
    }
    
    // 显示挂载点信息
    show_mountpoint_info(mountpoint);
    
    // 检查挂载点是否正在使用
    printf("检查挂载点使用状态...\n");
    if (is_mountpoint_busy(mountpoint)) {
        printf("警告：挂载点正在使用中\n");
    } else {
        printf("挂载点当前未被使用\n");
    }
    
    // 尝试多次卸载
    while (attempt < max_attempts) {
        attempt++;
        result->attempts = attempt;
        printf("第 %d 次卸载尝试:\n", attempt);
        
        // 根据尝试次数选择不同的卸载策略
        int flags = 0;
        if (attempt > 1) {
            printf("  挂载点可能正忙，等待片刻...\n");
            sleep(1);
        }
        
        if (attempt == 2) {
            // 第二次尝试：发送SIGTERM给可能使用该挂载点的进程
            printf("  尝试通知使用该挂载点的进程...\n");
        } else if (attempt == 3) {
            flags = MNT_FORCE;  // 强制卸载
            result->force_used = 1;
            printf("  使用强制卸载模式\n");
        } else if (attempt == 4) {
            flags = 0;  // 再次尝试普通卸载
            printf("  再次尝试普通卸载\n");
        } else if (attempt == 5) {
            flags = MNT_DETACH;  // 延迟卸载
            result->detach_used = 1;
            printf("  使用延迟卸载模式\n");
        }
        
        // 执行卸载
        result_code = umount2(mountpoint, flags);
        if (result_code == 0) {
            printf("  ✓ 卸载成功\n");
            result->success = 1;
            result->final_status = 0;
            break;
        } else {
            printf("  ✗ 卸载失败: %s\n", strerror(errno));
            result->final_status = errno;
            strncpy(result->error_message, strerror(errno), sizeof(result->error_message) - 1);
            result->error_message[sizeof(result->error_message) - 1] = '\0';
            
            // 根据错误类型决定是否继续尝试
            if (errno == EINVAL) {
                printf("  无效的挂载点，停止尝试\n");
                break;
            } else if (errno == EPERM) {
                printf("  权限不足，停止尝试\n");
                break;
            }
        }
    }
    
    // 显示最终结果
    printf("\n=== 卸载结果 ===\n");
    printf("挂载点: %s\n", result->mountpoint);
    printf("尝试次数: %d\n", result->attempts);
    printf("卸载状态: %s\n", result->success ? "成功" : "失败");
    
    if (result->success) {
        printf("卸载方式: ");
        if (result->force_used) {
            printf("强制卸载\n");
        } else if (result->detach_used) {
            printf("延迟卸载\n");
        } else {
            printf("普通卸载\n");
        }
    } else {
        printf("失败原因: %s\n", result->error_message);
        printf("最终错误码: %d\n", result->final_status);
    }
    
    return result->success ? 0 : -1;
}

/**
 * 演示安全卸载工具
 */
int demo_safe_unmount_tool() {
    safe_unmount_result_t result;
    const char *test_mountpoint = "/mnt/test_safe_unmount";
    
    printf("=== 安全卸载工具演示 ===\n");
    
    // 检查权限
    uid_t uid = getuid();
    printf("权限检查:\n");
    printf("  当前用户ID: %d\n", uid);
    if (uid == 0) {
        printf("  ✓ 具有root权限\n");
    } else {
        printf("  ✗ 没有root权限，卸载操作可能失败\n");
        printf("  提示：文件系统卸载通常需要root权限\n");
    }
    
    // 显示当前挂载信息
    printf("\n当前挂载信息:\n");
    system("cat /proc/mounts | grep -E '(tmp|mnt)' | head -5");
    
    // 演示安全卸载
    printf("\n演示安全卸载:\n");
    printf("目标挂载点: %s\n", test_mountpoint);
    
    // 注意：实际演示中避免卸载真实的重要文件系统
    // 这里仅演示调用方式和错误处理
    
    // 模拟卸载不存在的挂载点
    printf("\n1. 卸载不存在的挂载点:\n");
    if (safe_unmount_filesystem(test_mountpoint, &result) != 0) {
        printf("卸载不存在的挂载点（预期失败）\n");
    }
    
    // 演示卸载过程中的错误处理
    printf("\n2. 卸载错误处理演示:\n");
    
    // 尝试卸载根目录（应该失败）
    printf("尝试卸载根目录:\n");
    safe_unmount_filesystem("/", &result);
    
    // 尝试卸载无效路径
    printf("\n尝试卸载无效路径:\n");
    safe_unmount_filesystem("/invalid/mount/point", &result);
    
    // 显示安全卸载建议
    printf("\n=== 安全卸载建议 ===\n");
    printf("1. 卸载前检查:\n");
    printf("   ✓ 确认具有足够权限\n");
    printf("   ✓ 检查挂载点是否存在\n");
    printf("   ✓ 确认没有进程使用该挂载点\n");
    printf("   ✓ 备份重要数据\n");
    
    printf("\n2. 卸载策略:\n");
    printf("   ✓ 首先尝试普通卸载\n");
    printf("   ✓ 失败后等待并重试\n");
    printf("   ✓ 必要时使用强制卸载\n");
    printf("   ✓ 最后考虑延迟卸载\n");
    
    printf("\n3. 错误处理:\n");
    printf("   ✓ 检查返回值和errno\n");
    printf("   ✓ 根据错误类型采取不同措施\n");
    printf("   ✓ 记录卸载操作日志\n");
    printf("   ✓ 提供友好的错误信息\n");
    
    printf("\n4. 安全考虑:\n");
    printf("   ✓ 避免强制卸载重要文件系统\n");
    printf("   ✓ 确保数据一致性\n");
    printf("   ✓ 监控卸载后的系统状态\n");
    printf("   ✓ 准备恢复方案\n");
    
    return 0;
}

int main() {
    return demo_safe_unmount_tool();
}

示例4：批量卸载管理器

#include <sys/mount.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <mntent.h>
#include <fnmatch.h>

/**
 * 批量卸载条目结构
 */
typedef struct {
    char mountpoint[256];
    char filesystem[32];
    char device[256];
    int selected_for_unmount;
    int unmount_result;
    char result_message[128];
} batch_unmount_entry_t;

/**
 * 批量卸载管理器结构
 */
typedef struct {
    batch_unmount_entry_t entries[64];
    int entry_count;
    int selected_count;
    int successful_count;
    int failed_count;
} batch_unmount_manager_t;

/**
 * 初始化批量卸载管理器
 */
void init_batch_unmount_manager(batch_unmount_manager_t *manager) {
    memset(manager, 0, sizeof(batch_unmount_manager_t));
    printf("批量卸载管理器初始化完成\n");
}

/**
 * 从/proc/mounts加载挂载信息
 */
int load_mount_entries(batch_unmount_manager_t *manager) {
    FILE *fp = setmntent("/proc/mounts", "r");
    if (!fp) {
        printf("无法读取挂载信息: %s\n", strerror(errno));
        return -1;
    }
    
    struct mntent *mnt;
    int count = 0;
    
    printf("加载挂载信息:\n");
    
    while ((mnt = getmntent(fp)) != NULL && count < 64) {
        // 过滤系统挂载点
        if (strncmp(mnt->mnt_dir, "/proc", 5) == 0 ||
            strncmp(mnt->mnt_dir, "/sys", 4) == 0 ||
            strncmp(mnt->mnt_dir, "/dev", 4) == 0) {
            continue;  // 跳过系统挂载点
        }
        
        batch_unmount_entry_t *entry = &manager->entries[count];
        strncpy(entry->mountpoint, mnt->mnt_dir, sizeof(entry->mountpoint) - 1);
        entry->mountpoint[sizeof(entry->mountpoint) - 1] = '\0';
        
        strncpy(entry->filesystem, mnt->mnt_type, sizeof(entry->filesystem) - 1);
        entry->filesystem[sizeof(entry->filesystem) - 1] = '\0';
        
        strncpy(entry->device, mnt->mnt_fsname, sizeof(entry->device) - 1);
        entry->device[sizeof(entry->device) - 1] = '\0';
        
        entry->selected_for_unmount = 0;
        entry->unmount_result = 0;
        entry->result_message[0] = '\0';
        
        printf("  %s (%s on %s)\n", entry->mountpoint, entry->filesystem, entry->device);
        count++;
    }
    
    endmntent(fp);
    manager->entry_count = count;
    printf("共加载 %d 个挂载点\n", count);
    
    return 0;
}

/**
 * 根据模式选择挂载点
 */
int select_mountpoints_by_pattern(batch_unmount_manager_t *manager, const char *pattern) {
    int selected = 0;
    
    printf("根据模式选择挂载点: %s\n", pattern);
    
    for (int i = 0; i < manager->entry_count; i++) {
        batch_unmount_entry_t *entry = &manager->entries[i];
        
        if (fnmatch(pattern, entry->mountpoint, 0) == 0) {
            entry->selected_for_unmount = 1;
            selected++;
            printf("  选中: %s\n", entry->mountpoint);
        }
    }
    
    manager->selected_count = selected;
    printf("共选中 %d 个挂载点\n", selected);
    
    return selected;
}

/**
 * 执行批量卸载
 */
int execute_batch_unmount(batch_unmount_manager_t *manager, int flags) {
    printf("=== 执行批量卸载 ===\n");
    printf("卸载标志: 0x%x\n", flags);
    printf("选中挂载点数量: %d\n", manager->selected_count);
    
    manager->successful_count = 0;
    manager->failed_count = 0;
    
    for (int i = 0; i < manager->entry_count; i++) {
        batch_unmount_entry_t *entry = &manager->entries[i];
        
        if (!entry->selected_for_unmount) {
            continue;
        }
        
        printf("\n卸载 %s:\n", entry->mountpoint);
        
        // 执行卸载
        int result = umount2(entry->mountpoint, flags);
        entry->unmount_result = result;
        
        if (result == 0) {
            printf("  ✓ 卸载成功\n");
            manager->successful_count++;
            strncpy(entry->result_message, "成功", sizeof(entry->result_message) - 1);
        } else {
            printf("  ✗ 卸载失败: %s\n", strerror(errno));
            manager->failed_count++;
            strncpy(entry->result_message, strerror(errno), sizeof(entry->result_message) - 1);
            entry->result_message[sizeof(entry->result_message) - 1] = '\0';
        }
    }
    
    printf("\n=== 批量卸载结果 ===\n");
    printf("成功: %d\n", manager->successful_count);
    printf("失败: %d\n", manager->failed_count);
    printf("总计: %d\n", manager->successful_count + manager->failed_count);
    
    // 显示详细结果
    printf("\n详细结果:\n");
    for (int i = 0; i < manager->entry_count; i++) {
        batch_unmount_entry_t *entry = &manager->entries[i];
        if (entry->selected_for_unmount) {
            printf("  %s: %s (%s)\n", 
                   entry->mountpoint,
                   entry->unmount_result == 0 ? "✓" : "✗",
                   entry->result_message);
        }
    }
    
    return (manager->failed_count == 0) ? 0 : -1;
}

/**
 * 显示批量卸载摘要
 */
void show_batch_unmount_summary(const batch_unmount_manager_t *manager) {
    printf("=== 批量卸载摘要 ===\n");
    printf("总挂载点数: %d\n", manager->entry_count);
    printf("选中卸载数: %d\n", manager->selected_count);
    printf("成功卸载数: %d\n", manager->successful_count);
    printf("失败卸载数: %d\n", manager->failed_count);
    printf("成功率: %.1f%%\n", 
           manager->selected_count > 0 ? 
           (double)manager->successful_count / manager->selected_count * 100 : 0);
    
    if (manager->failed_count > 0) {
        printf("\n失败详情:\n");
        for (int i = 0; i < manager->entry_count; i++) {
            const batch_unmount_entry_t *entry = &manager->entries[i];
            if (entry->selected_for_unmount && entry->unmount_result != 0) {
                printf("  %s: %s\n", entry->mountpoint, entry->result_message);
            }
        }
    }
}

/**
 * 演示批量卸载管理器
 */
int demo_batch_unmount_manager() {
    batch_unmount_manager_t manager;
    
    printf("=== 批量卸载管理器演示 ===\n");
    
    // 初始化管理器
    printf("1. 初始化批量卸载管理器:\n");
    init_batch_unmount_manager(&manager);
    
    // 加载挂载信息
    printf("\n2. 加载挂载信息:\n");
    if (load_mount_entries(&manager) != 0) {
        printf("加载挂载信息失败\n");
        return -1;
    }
    
    // 显示可用的卸载选项
    printf("\n3. 可用挂载点:\n");
    for (int i = 0; i < manager.entry_count && i < 10; i++) {
        const batch_unmount_entry_t *entry = &manager.entries[i];
        printf("  %d. %s (%s)\n", i + 1, entry->mountpoint, entry->filesystem);
    }
    
    if (manager.entry_count > 10) {
        printf("  ... (还有 %d 个挂载点)\n", manager.entry_count - 10);
    }
    
    // 演示模式匹配选择
    printf("\n4. 模式匹配选择演示:\n");
    
    // 选择/tmp目录下的挂载点
    select_mountpoints_by_pattern(&manager, "/tmp/*");
    
    // 选择/media目录下的挂载点
    select_mountpoints_by_pattern(&manager, "/media/*");
    
    // 选择所有ext4文件系统
    printf("\n根据文件系统类型选择:\n");
    int ext4_selected = 0;
    for (int i = 0; i < manager.entry_count; i++) {
        batch_unmount_entry_t *entry = &manager.entries[i];
        if (strcmp(entry->filesystem, "ext4") == 0) {
            entry->selected_for_unmount = 1;
            ext4_selected++;
            printf("  选中ext4文件系统: %s\n", entry->mountpoint);
        }
    }
    printf("共选中 %d 个ext4文件系统\n", ext4_selected);
    
    // 显示选中结果
    printf("\n5. 选中挂载点列表:\n");
    for (int i = 0; i < manager.entry_count; i++) {
        const batch_unmount_entry_t *entry = &manager.entries[i];
        if (entry->selected_for_unmount) {
            printf("  %s (%s on %s)\n", 
                   entry->mountpoint, entry->filesystem, entry->device);
        }
    }
    
    // 演示不同卸载模式
    printf("\n6. 不同卸载模式演示:\n");
    
    // 模式1：普通卸载
    printf("模式1：普通卸载\n");
    printf("注意：实际演示中跳过真实卸载操作以避免影响系统\n");
    
    // 模式2：强制卸载
    printf("\n模式2：强制卸载\n");
    printf("卸载标志: MNT_FORCE (0x%x)\n", MNT_FORCE);
    
    // 模式3：延迟卸载
    printf("\n模式3：延迟卸载\n");
    printf("卸载标志: MNT_DETACH (0x%x)\n", MNT_DETACH);
    
    // 模式4：过期卸载
    printf("\n模式4：过期卸载\n");
    printf("卸载标志: MNT_EXPIRE (0x%x)\n", MNT_EXPIRE);
    
    // 显示批量卸载策略
    printf("\n=== 批量卸载策略 ===\n");
    printf("1. 选择策略:\n");
    printf("   ✓ 支持通配符模式匹配\n");
    printf("   ✓ 支持文件系统类型筛选\n");
    printf("   ✓ 支持设备类型筛选\n");
    printf("   ✓ 支持交互式选择\n");
    
    printf("\n2. 卸载策略:\n");
    printf("   ✓ 优先尝试普通卸载\n");
    printf("   ✓ 失败后尝试强制卸载\n");
    printf("   ✓ 最后考虑延迟卸载\n");
    printf("   ✓ 支持批量重试机制\n");
    
    printf("\n3. 错误处理:\n");
    printf("   ✓ 详细记录每个卸载操作结果\n");
    printf("   ✓ 提供失败原因分析\n");
    printf("   ✓ 支持部分成功处理\n");
    printf("   ✓ 生成卸载报告\n");
    
    printf("\n4. 安全考虑:\n");
    printf("   ✓ 避免卸载系统关键挂载点\n");
    printf("   ✓ 检查挂载点使用状态\n");
    printf("   ✓ 提供确认机制\n");
    printf("   ✓ 支持回滚操作\n");
    
    return 0;
}

int main() {
    return demo_batch_unmount_manager();
}

示例5：文件系统监控和管理

#include <sys/mount.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <mntent.h>
#include <time.h>
#include <sys/statvfs.h>

/**
 * 文件系统统计信息结构
 */
typedef struct {
    char mountpoint[256];
    char filesystem[32];
    char device[256];
    unsigned long long total_size_kb;
    unsigned long long used_size_kb;
    unsigned long long available_size_kb;
    double usage_percent;
    time_t last_check_time;
    int is_mounted;
    int readonly;
} filesystem_stats_t;

/**
 * 文件系统监控器结构
 */
typedef struct {
    filesystem_stats_t filesystems[32];
    int fs_count;
    time_t last_update_time;
    int monitoring_enabled;
} fs_monitor_t;

/**
 * 更新文件系统统计信息
 */
int update_filesystem_stats(filesystem_stats_t *fs) {
    struct statvfs buf;
    
    if (statvfs(fs->mountpoint, &buf) != 0) {
        printf("获取文件系统统计信息失败: %s\n", strerror(errno));
        return -1;
    }
    
    // 计算空间使用情况
    unsigned long long block_size = buf.f_frsize ? buf.f_frsize : buf.f_bsize;
    fs->total_size_kb = (unsigned long long)buf.f_blocks * block_size / 1024;
    fs->available_size_kb = (unsigned long long)buf.f_bavail * block_size / 1024;
    fs->used_size_kb = fs->total_size_kb - (unsigned long long)buf.f_bfree * block_size / 1024;
    
    if (fs->total_size_kb > 0) {
        fs->usage_percent = (double)fs->used_size_kb / fs->total_size_kb * 100;
    } else {
        fs->usage_percent = 0.0;
    }
    
    fs->last_check_time = time(NULL);
    
    // 检查是否为只读
    fs->readonly = (buf.f_flag & ST_RDONLY) ? 1 : 0;
    
    return 0;
}

/**
 * 从/proc/mounts加载文件系统信息
 */
int load_filesystem_info(fs_monitor_t *monitor) {
    FILE *fp = setmntent("/proc/mounts", "r");
    if (!fp) {
        printf("无法读取挂载信息: %s\n", strerror(errno));
        return -1;
    }
    
    struct mntent *mnt;
    int count = 0;
    
    while ((mnt = getmntent(fp)) != NULL && count < 32) {
        // 跳过某些系统挂载点
        if (strncmp(mnt->mnt_dir, "/proc", 5) == 0 ||
            strncmp(mnt->mnt_dir, "/sys", 4) == 0 ||
            strncmp(mnt->mnt_dir, "/dev", 4) == 0) {
            continue;
        }
        
        filesystem_stats_t *fs = &monitor->filesystems[count];
        strncpy(fs->mountpoint, mnt->mnt_dir, sizeof(fs->mountpoint) - 1);
        fs->mountpoint[sizeof(fs->mountpoint) - 1] = '\0';
        
        strncpy(fs->filesystem, mnt->mnt_type, sizeof(fs->filesystem) - 1);
        fs->filesystem[sizeof(fs->filesystem) - 1] = '\0';
        
        strncpy(fs->device, mnt->mnt_fsname, sizeof(fs->device) - 1);
        fs->device[sizeof(fs->device) - 1] = '\0';
        
        fs->is_mounted = 1;
        
        // 更新统计信息
        update_filesystem_stats(fs);
        
        count++;
    }
    
    endmntent(fp);
    monitor->fs_count = count;
    monitor->last_update_time = time(NULL);
    
    printf("加载了 %d 个文件系统信息\n", count);
    return 0;
}

/**
 * 显示文件系统统计信息
 */
void show_filesystem_stats(const filesystem_stats_t *fs) {
    char time_str[64];
    strftime(time_str, sizeof(time_str), "%Y-%m-%d %H:%M:%S", localtime(&fs->last_check_time));
    
    printf("文件系统: %s\n", fs->mountpoint);
    printf("  设备: %s\n", fs->device);
    printf("  类型: %s\n", fs->filesystem);
    printf("  总空间: %.2f GB\n", fs->total_size_kb / (1024.0 * 1024.0));
    printf("  已用空间: %.2f GB (%.1f%%)\n", 
           fs->used_size_kb / (1024.0 * 1024.0), fs->usage_percent);
    printf("  可用空间: %.2f GB\n", fs->available_size_kb / (1024.0 * 1024.0));
    printf("  只读模式: %s\n", fs->readonly ? "是" : "否");
    printf("  最后检查: %s\n", time_str);
}

/**
 * 监控文件系统使用情况
 */
int monitor_filesystem_usage(fs_monitor_t *monitor, const char *mountpoint, double threshold) {
    for (int i = 0; i < monitor->fs_count; i++) {
        filesystem_stats_t *fs = &monitor->filesystems[i];
        
        if (strcmp(fs->mountpoint, mountpoint) == 0) {
            // 更新统计信息
            update_filesystem_stats(fs);
            
            printf("监控文件系统 %s:\n", mountpoint);
            show_filesystem_stats(fs);
            
            // 检查使用率阈值
            if (fs->usage_percent > threshold) {
                printf("⚠ 警告: 文件系统使用率过高 (%.1f%% > %.1f%%)\n", 
                       fs->usage_percent, threshold);
                
                // 根据使用率严重程度提供建议
                if (fs->usage_percent > 95) {
                    printf("  🚨 严重: 立即清理磁盘空间\n");
                } else if (fs->usage_percent > 90) {
                    printf("  ⚠ 警告: 尽快清理磁盘空间\n");
                } else if (fs->usage_percent > 80) {
                    printf("  ℹ 提示: 考虑清理磁盘空间\n");
                }
                
                return 1;  // 超过阈值
            } else {
                printf("✓ 文件系统使用率正常 (%.1f%%)\n", fs->usage_percent);
                return 0;  // 正常
            }
        }
    }
    
    printf("未找到指定的挂载点: %s\n", mountpoint);
    return -1;  // 未找到
}

/**
 * 演示文件系统监控和管理
 */
int demo_filesystem_monitoring() {
    fs_monitor_t monitor = {0};
    uid_t uid = getuid();
    
    printf("=== 文件系统监控和管理演示 ===\n");
    
    // 权限检查
    printf("权限检查:\n");
    printf("  当前用户ID: %d\n", uid);
    if (uid == 0) {
        printf("  ✓ 具有root权限\n");
    } else {
        printf("  ℹ 普通用户权限（部分功能可能受限）\n");
    }
    
    // 加载文件系统信息
    printf("\n1. 加载文件系统信息:\n");
    if (load_filesystem_info(&monitor) != 0) {
        printf("加载文件系统信息失败\n");
        return -1;
    }
    
    // 显示所有文件系统信息
    printf("\n2. 文件系统统计信息:\n");
    for (int i = 0; i < monitor.fs_count && i < 5; i++) {
        printf("\n文件系统 %d:\n", i + 1);
        show_filesystem_stats(&monitor.filesystems[i]);
    }
    
    if (monitor.fs_count > 5) {
        printf("\n... (还有 %d 个文件系统)\n", monitor.fs_count - 5);
    }
    
    // 演示使用率监控
    printf("\n3. 文件系统使用率监控演示:\n");
    
    // 监控各个文件系统
    for (int i = 0; i < monitor.fs_count && i < 3; i++) {
        filesystem_stats_t *fs = &monitor.filesystems[i];
        printf("\n监控 %s:\n", fs->mountpoint);
        
        // 不同阈值的监控
        monitor_filesystem_usage(&monitor, fs->mountpoint, 80.0);  // 警告阈值
        monitor_filesystem_usage(&monitor, fs->mountpoint, 90.0);  // 严重阈值
    }
    
    // 演示umount2在监控中的应用
    printf("\n4. umount2在监控中的应用:\n");
    
    // 模拟需要卸载的情况
    printf("模拟文件系统维护场景:\n");
    
    for (int i = 0; i < monitor.fs_count && i < 2; i++) {
        filesystem_stats_t *fs = &monitor.filesystems[i];
        printf("\n检查 %s 是否需要维护:\n", fs->mountpoint);
        
        // 检查使用率和只读状态
        if (fs->usage_percent > 95) {
            printf("  文件系统使用率过高 (%.1f%%)\n", fs->usage_percent);
            printf("  建议: 卸载后进行文件系统检查\n");
            
            // 演示不同卸载选项
            printf("  卸载选项:\n");
            printf("    1. 普通卸载: umount2(\"%s\", 0)\n", fs->mountpoint);
            printf("    2. 强制卸载: umount2(\"%s\", MNT_FORCE)\n", fs->mountpoint);
            printf("    3. 延迟卸载: umount2(\"%s\", MNT_DETACH)\n", fs->mountpoint);
        } else if (fs->readonly) {
            printf("  文件系统为只读模式\n");
            printf("  可能需要重新挂载为读写模式\n");
        } else {
            printf("  文件系统状态正常\n");
        }
    }
    
    // 显示监控策略和最佳实践
    printf("\n=== 文件系统监控策略 ===\n");
    printf("1. 监控频率:\n");
    printf("   ✓ 关键系统: 每分钟检查\n");
    printf("   ✓ 重要数据: 每5分钟检查\n");
    printf("   ✓ 一般用途: 每小时检查\n");
    
    printf("\n2. 阈值设置:\n");
    printf("   ✓ 警告阈值: 80%% 使用率\n");
    printf("   ✓ 严重阈值: 90%% 使用率\n");
    printf("   ✓ 紧急阈值: 95%% 使用率\n");
    
    printf("\n3. 响应策略:\n");
    printf("   ✓ 自动告警通知\n");
    printf("   ✓ 日志记录\n");
    printf("   ✓ 自动清理临时文件\n");
    printf("   ✓ 邮件/SMS通知\n");
    
    printf("\n4. umount2使用场景:\n");
    printf("   ✓ 系统维护时的安全卸载\n");
    printf("   ✓ 文件系统检查前的准备\n");
    printf("   ✓ 紧急情况下的强制卸载\n");
    printf("   ✓ 资源回收时的延迟卸载\n");
    
    // 显示安全考虑
    printf("\n=== 安全考虑 ===\n");
    printf("1. 权限管理:\n");
    printf("   ✓ 文件系统操作需要适当权限\n");
    printf("   ✓ 避免普通用户执行危险操作\n");
    printf("   ✓ 使用sudo进行权限提升\n");
    
    printf("\n2. 数据安全:\n");
    printf("   ✓ 卸载前确保数据已同步\n");
    printf("   ✓ 避免强制卸载重要数据\n");
    printf("   ✓ 备份重要文件系统\n");
    
    printf("\n3. 系统稳定性:\n");
    printf("   ✓ 避免卸载系统关键挂载点\n");
    printf("   ✓ 监控卸载操作的影响\n");
    printf("   ✓ 准备系统恢复方案\n");
    
    return 0;
}

int main() {
    return demo_filesystem_monitoring();
}

umount2 使用注意事项

系统要求：

内核版本: 支持umount2的Linux内核
权限要求: 通常需要root权限或适当的挂载权限
架构支持: 支持所有主流架构

卸载标志详解：

0: 普通卸载（默认行为）
MNT_FORCE: 强制卸载（即使文件系统正忙）
MNT_DETACH: 延迟卸载（立即返回，后台清理）
MNT_EXPIRE: 标记为过期（如果未被使用则卸载）

错误处理：

EBUSY: 文件系统正忙，无法卸载
EINVAL: 无效的挂载点
EPERM: 权限不足
EACCES: 访问被拒绝
ENOMEM: 内存不足

安全考虑：

权限验证: 确保具有足够的权限
挂载点验证: 验证挂载点的有效性
使用状态检查: 检查文件系统是否正在使用
数据同步: 确保数据已正确同步

最佳实践：

渐进式卸载: 优先尝试普通卸载，失败后再尝试强制卸载
状态检查: 卸载前后检查系统状态
日志记录: 记录所有卸载操作
错误恢复: 准备适当的错误恢复机制
用户通知: 及时通知用户操作结果

umount2标志详细说明

MNT_FORCE (1):

功能: 强制卸载文件系统
使用场景: 文件系统正忙时的紧急卸载
风险: 可能导致数据丢失或文件系统损坏

MNT_DETACH (2):

功能: 延迟卸载（懒卸载）
使用场景: 立即返回，后台清理资源
优势: 不阻塞调用进程

MNT_EXPIRE (4):

功能: 标记挂载点为过期
使用场景: 如果没有进程使用则卸载
特点: 非阻塞操作

常见使用场景

1. 系统维护：

// 维护前安全卸载文件系统
umount2("/mnt/data", 0);

2. 紧急处理：

// 紧急情况下强制卸载
umount2("/mnt/critical", MNT_FORCE);

3. 资源管理：

// 延迟卸载以避免阻塞
umount2("/mnt/temp", MNT_DETACH);

4. 自动化脚本：

// 批量卸载操作
for (int i = 0; i < count; i++) {
    umount2(mountpoints[i], 0);
}

总结

umount2 是Linux系统中强大的文件系统卸载工具，提供了：

灵活的卸载选项: 支持普通、强制、延迟等多种卸载模式
完善的错误处理: 详细的错误码和错误信息
安全的卸载机制: 多种安全检查和保护措施
标准兼容性: 符合POSIX标准，广泛支持

通过合理使用 umount2，可以构建安全可靠的文件系统管理工具。在实际应用中，需要注意权限要求、错误处理和系统稳定性等关键问题，遵循最佳实践确保系统的安全和稳定运行。

发表在 linux文章 | 留下评论

uname系统调用及示例

发表于2025-08-08由麦芽爸

uname – 获取系统信息

函数介绍

uname系统调用用于获取当前Linux系统的详细信息，包括内核名称、版本、硬件架构等。这些信息对于系统管理和程序兼容性检查非常有用。

函数原型

#include <sys/utsname.h>

int uname(struct utsname *buf);

功能

获取系统标识信息，包括内核名称、网络节点名、内核版本、硬件架构等。

参数

struct utsname *buf: 指向utsname结构体的指针，用于存储系统信息struct utsname { char sysname[]; // 系统名称 (如 "Linux") char nodename[]; // 网络节点名 (主机名) char release[]; // 内核发行版本 char version[]; // 内核版本 char machine[]; // 硬件架构 char domainname[]; // 域名 (NIS/YP) };

返回值

成功时返回0
失败时返回-1，并设置errno

相似函数

sysinfo(): 获取系统统计信息
命令行uname工具

示例代码

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <sys/utsname.h>
#include <errno.h>
#include <string.h>

int main() {
    struct utsname system_info;
    
    printf("=== Uname函数示例 ===\n");
    
    // 调用uname获取系统信息
    if (uname(&system_info) == -1) {
        perror("uname调用失败");
        exit(EXIT_FAILURE);
    }
    
    // 打印系统信息
    printf("系统名称 (sysname): %s\n", system_info.sysname);
    printf("网络节点名 (nodename): %s\n", system_info.nodename);
    printf("内核发行版本 (release): %s\n", system_info.release);
    printf("内核版本 (version): %s\n", system_info.version);
    printf("硬件架构 (machine): %s\n", system_info.machine);
    
    #ifdef _GNU_SOURCE
    printf("域名 (domainname): %s\n", system_info.domainname);
    #endif
    
    // 示例应用：根据系统类型执行不同操作
    printf("\n=== 实际应用示例 ===\n");
    
    // 检查操作系统类型
    if (strcmp(system_info.sysname, "Linux") == 0) {
        printf("检测到Linux系统\n");
    } else {
        printf("检测到其他系统: %s\n", system_info.sysname);
    }
    
    // 检查硬件架构
    if (strcmp(system_info.machine, "x86_64") == 0) {
        printf("运行在64位x86架构上\n");
    } else if (strcmp(system_info.machine, "aarch64") == 0) {
        printf("运行在64位ARM架构上\n");
    } else {
        printf("运行在%s架构上\n", system_info.machine);
    }
    
    // 检查内核版本（简单比较）
    printf("内核版本信息: %s\n", system_info.release);
    
    // 解析版本号示例
    int major, minor, patch;
    if (sscanf(system_info.release, "%d.%d.%d", &major, &minor, &patch) == 3) {
        printf("解析的内核版本: %d.%d.%d\n", major, minor, patch);
        
        // 根据内核版本做兼容性检查
        if (major >= 4) {
            printf("内核版本 >= 4.0，支持较新特性\n");
        } else {
            printf("内核版本较低，可能需要特殊处理\n");
        }
    }
    
    // 获取主机名
    printf("主机名: %s\n", system_info.nodename);
    
    return 0;
}

uname函数详解

1. 函数介绍

uname函数是Linux系统中用于获取系统信息的标准函数，它的名字来源于”Unix name”。这个函数就像系统的”身份证”一样，能够提供关于当前运行系统的详细信息，包括操作系统名称、版本、硬件架构等。

可以把uname想象成一个”系统信息查询员”，当你需要了解当前系统的基本信息时，它能够快速提供准确的答案。无论是在程序中需要根据系统类型执行不同逻辑，还是在调试时需要确认系统环境，uname都是一个非常实用的工具。

使用场景：

程序的系统兼容性检查
系统信息显示和日志记录
根据系统类型执行特定代码
系统管理和监控工具
软件安装程序的环境检测

2. 函数原型

#include <sys/utsname.h>

int uname(struct utsname *buf);

3. 功能

uname函数的主要功能是获取当前系统的标识信息。它填充一个utsname结构体，其中包含以下系统信息：

操作系统名称
网络节点名称（主机名）
操作系统发行版本
操作系统版本
硬件架构类型

4. 参数

buf: 系统信息缓冲区
- 类型：struct utsname*
- 含义：指向utsname结构体的指针，用于存储系统信息
- 该结构体包含以下字段：
  - sysname[]: 操作系统名称
  - nodename[]: 网络节点名称（主机名）
  - release[]: 操作系统发行版本
  - version[]: 操作系统版本
  - machine[]: 硬件架构类型
  - domainname[]: 网络域名（某些系统支持）

5. 返回值

成功: 返回0
失败: 返回-1，并设置errno错误码
- EFAULT：buf参数指向无效内存地址
- EINVAL：参数无效（理论上不会发生）

6. 相似函数或关联函数

gethostname(): 获取主机名
sysconf(): 获取系统配置信息
getdomainname(): 获取网络域名
uname命令: 命令行下的uname工具
/proc/version: 系统版本信息文件
system(): 执行系统命令

7. 示例代码

示例1：基础uname使用 – 获取系统信息

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/utsname.h>
#include <string.h>
#include <errno.h>

int main() {
    struct utsname system_info;
    
    printf("=== 基础uname使用示例 ===\n");
    
    // 调用uname函数获取系统信息
    if (uname(&system_info) == -1) {
        perror("uname调用失败");
        exit(EXIT_FAILURE);
    }
    
    // 显示系统信息
    printf("系统信息:\n");
    printf("----------------------------\n");
    printf("操作系统名称: %s\n", system_info.sysname);
    printf("网络节点名:   %s\n", system_info.nodename);
    printf("内核发行版:   %s\n", system_info.release);
    printf("内核版本:     %s\n", system_info.version);
    printf("硬件架构:     %s\n", system_info.machine);
    
    // 如果支持域名信息
    #ifdef _GNU_SOURCE
    printf("网络域名:     %s\n", system_info.domainname);
    #endif
    
    printf("----------------------------\n");
    
    // 分析系统类型
    printf("\n系统类型分析:\n");
    if (strcmp(system_info.sysname, "Linux") == 0) {
        printf("✓ 这是一个Linux系统\n");
    } else if (strcmp(system_info.sysname, "Darwin") == 0) {
        printf("✓ 这是一个macOS系统\n");
    } else {
        printf("? 这是一个%s系统\n", system_info.sysname);
    }
    
    // 分析硬件架构
    printf("硬件架构分析:\n");
    if (strcmp(system_info.machine, "x86_64") == 0) {
        printf("✓ 64位x86架构\n");
    } else if (strcmp(system_info.machine, "i386") == 0 || 
               strcmp(system_info.machine, "i686") == 0) {
        printf("✓ 32位x86架构\n");
    } else if (strncmp(system_info.machine, "arm", 3) == 0) {
        printf("✓ ARM架构\n");
    } else if (strncmp(system_info.machine, "aarch64", 7) == 0) {
        printf("✓ 64位ARM架构\n");
    } else {
        printf("? %s架构\n", system_info.machine);
    }
    
    return 0;
}

示例2：详细的系统信息分析

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/utsname.h>
#include <string.h>
#include <ctype.h>

// 判断是否为Linux系统
int is_linux_system(const char* sysname) {
    return (strcmp(sysname, "Linux") == 0);
}

// 判断是否为64位系统
int is_64bit_system(const char* machine) {
    return (strcmp(machine, "x86_64") == 0 || 
            strcmp(machine, "aarch64") == 0 ||
            strcmp(machine, "ppc64") == 0 ||
            strcmp(machine, "s390x") == 0 ||
            strncmp(machine, "mips64", 6) == 0);
}

// 判断是否为ARM架构
int is_arm_architecture(const char* machine) {
    return (strncmp(machine, "arm", 3) == 0 || 
            strncmp(machine, "aarch64", 7) == 0);
}

// 分析内核版本
void analyze_kernel_version(const char* release) {
    printf("内核版本分析:\n");
    
    // Linux内核版本通常是 x.y.z 格式
    int major, minor, patch;
    if (sscanf(release, "%d.%d.%d", &major, &minor, &patch) == 3) {
        printf("  主版本号: %d\n", major);
        printf("  次版本号: %d\n", minor);
        printf("  修订版本: %d\n", patch);
        
        // 根据主版本号判断内核新旧
        if (major >= 5) {
            printf("  ✓ 现代Linux内核 (5.x 或更新)\n");
        } else if (major == 4) {
            printf("  ✓ 较新的Linux内核 (4.x)\n");
        } else if (major == 3) {
            printf("  ⚠ 较旧的Linux内核 (3.x)\n");
        } else {
            printf("  ⚠ 非常旧的Linux内核 (%d.x)\n", major);
        }
    } else {
        printf("  无法解析版本格式: %s\n", release);
    }
}

// 分析主机名
void analyze_hostname(const char* nodename) {
    printf("主机名分析:\n");
    printf("  主机名: %s\n", nodename);
    
    // 检查主机名长度
    size_t len = strlen(nodename);
    printf("  长度: %zu 字符\n", len);
    
    // 检查是否包含特殊字符
    int has_special = 0;
    for (size_t i = 0; i < len; i++) {
        if (!isalnum(nodename[i]) && nodename[i] != '-' && nodename[i] != '.') {
            has_special = 1;
            break;
        }
    }
    
    if (has_special) {
        printf("  ⚠ 主机名包含特殊字符\n");
    } else {
        printf("  ✓ 主机名格式规范\n");
    }
}

// 显示系统兼容性信息
void show_compatibility_info(const struct utsname* info) {
    printf("系统兼容性信息:\n");
    
    // 可执行文件格式
    if (is_64bit_system(info->machine)) {
        printf("  可执行格式: 64位 ELF\n");
    } else {
        printf("  可执行格式: 32位 ELF\n");
    }
    
    // 库兼容性
    if (is_linux_system(info->sysname)) {
        printf("  系统调用: Linux ABI\n");
    }
    
    // 字节序信息（通过架构推断）
    if (strcmp(info->machine, "x86_64") == 0 || 
        strcmp(info->machine, "i386") == 0) {
        printf("  字节序: 小端序 (Little Endian)\n");
    }
}

int main() {
    struct utsname system_info;
    
    printf("=== 详细系统信息分析 ===\n\n");
    
    // 获取系统信息
    if (uname(&system_info) == -1) {
        perror("uname调用失败");
        exit(EXIT_FAILURE);
    }
    
    // 基本信息显示
    printf("1. 基本系统信息:\n");
    printf("   操作系统: %s\n", system_info.sysname);
    printf("   主机名:   %s\n", system_info.nodename);
    printf("   内核版本: %s\n", system_info.release);
    printf("   构建版本: %s\n", system_info.version);
    printf("   硬件架构: %s\n", system_info.machine);
    
    // 详细分析
    printf("\n2. 详细分析:\n");
    analyze_hostname(system_info.nodename);
    printf("\n");
    analyze_kernel_version(system_info.release);
    printf("\n");
    show_compatibility_info(&system_info);
    
    // 系统分类
    printf("\n3. 系统分类:\n");
    if (is_linux_system(system_info.sysname)) {
        printf("   ✓ Linux系统家族\n");
        
        // 进一步分类Linux发行版（基于内核版本等信息）
        if (strstr(system_info.version, "Ubuntu")) {
            printf("   ✓ 可能是Ubuntu发行版\n");
        } else if (strstr(system_info.version, "Debian")) {
            printf("   ✓ 可能是Debian发行版\n");
        } else if (strstr(system_info.version, "CentOS") || 
                   strstr(system_info.version, "Red Hat")) {
            printf("   ✓ 可能是Red Hat系列发行版\n");
        } else {
            printf("   ✓ 其他Linux发行版\n");
        }
    }
    
    if (is_64bit_system(system_info.machine)) {
        printf("   ✓ 64位系统\n");
    } else {
        printf("   ✓ 32位系统\n");
    }
    
    if (is_arm_architecture(system_info.machine)) {
        printf("   ✓ ARM架构系统\n");
    }
    
    // 生成系统指纹（用于唯一标识）
    printf("\n4. 系统指纹:\n");
    printf("   指纹字符串: %s-%s-%s\n", 
           system_info.sysname, 
           system_info.release, 
           system_info.machine);
    
    // 应用场景示例
    printf("\n5. 应用场景适配:\n");
    
    // 根据系统类型决定编译选项
    if (is_linux_system(system_info.sysname)) {
        printf("   编译建议: 使用Linux特定优化\n");
    }
    
    // 根据架构决定二进制分发
    if (is_64bit_system(system_info.machine)) {
        printf("   分发建议: 提供64位版本\n");
    } else {
        printf("   分发建议: 提供32位版本\n");
    }
    
    if (is_arm_architecture(system_info.machine)) {
        printf("   优化建议: 针对ARM架构优化\n");
    }
    
    return 0;
}

示例3：系统信息比较和兼容性检查

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/utsname.h>
#include <string.h>
#include <time.h>

// 系统信息结构体
typedef struct {
    struct utsname info;
    time_t timestamp;
} system_snapshot_t;

// 保存系统快照
int save_system_snapshot(system_snapshot_t* snapshot) {
    if (uname(&snapshot->info) == -1) {
        return -1;
    }
    snapshot->timestamp = time(NULL);
    return 0;
}

// 比较两个系统快照
void compare_system_snapshots(const system_snapshot_t* snap1, 
                             const system_snapshot_t* snap2) {
    printf("=== 系统信息比较 ===\n");
    printf("快照1时间: %s", ctime(&snap1->timestamp));
    printf("快照2时间: %s", ctime(&snap2->timestamp));
    
    printf("比较结果:\n");
    
    // 比较操作系统名称
    if (strcmp(snap1->info.sysname, snap2->info.sysname) == 0) {
        printf("✓ 操作系统名称相同: %s\n", snap1->info.sysname);
    } else {
        printf("✗ 操作系统名称不同: %s vs %s\n", 
               snap1->info.sysname, snap2->info.sysname);
    }
    
    // 比较主机名
    if (strcmp(snap1->info.nodename, snap2->info.nodename) == 0) {
        printf("✓ 主机名相同: %s\n", snap1->info.nodename);
    } else {
        printf("⚠ 主机名不同: %s vs %s\n", 
               snap1->info.nodename, snap2->info.nodename);
    }
    
    // 比较内核版本
    if (strcmp(snap1->info.release, snap2->info.release) == 0) {
        printf("✓ 内核版本相同: %s\n", snap1->info.release);
    } else {
        printf("⚠ 内核版本不同: %s vs %s\n", 
               snap1->info.release, snap2->info.release);
    }
    
    // 比较硬件架构
    if (strcmp(snap1->info.machine, snap2->info.machine) == 0) {
        printf("✓ 硬件架构相同: %s\n", snap1->info.machine);
    } else {
        printf("✗ 硬件架构不同: %s vs %s\n", 
               snap1->info.machine, snap2->info.machine);
    }
}

// 检查系统兼容性
int check_system_compatibility(const struct utsname* info) {
    printf("=== 系统兼容性检查 ===\n");
    int compatible = 1;
    
    // 检查操作系统
    if (strcmp(info->sysname, "Linux") != 0) {
        printf("✗ 不支持的操作系统: %s\n", info->sysname);
        compatible = 0;
    } else {
        printf("✓ 支持的操作系统: %s\n", info->sysname);
    }
    
    // 检查内核版本（假设需要3.0以上）
    int major, minor;
    if (sscanf(info->release, "%d.%d", &major, &minor) >= 2) {
        if (major >= 3) {
            printf("✓ 支持的内核版本: %s\n", info->release);
        } else {
            printf("✗ 内核版本过低: %s (需要3.0+)\n", info->release);
            compatible = 0;
        }
    } else {
        printf("? 无法确定内核版本格式\n");
    }
    
    // 检查硬件架构（假设支持x86_64和ARM64）
    if (strcmp(info->machine, "x86_64") == 0 || 
        strcmp(info->machine, "aarch64") == 0) {
        printf("✓ 支持的硬件架构: %s\n", info->machine);
    } else {
        printf("⚠ 可能不支持的硬件架构: %s\n", info->machine);
        // 这里可以根据需要决定是否标记为不兼容
    }
    
    return compatible;
}

// 生成系统报告
void generate_system_report(const struct utsname* info) {
    printf("\n=== 系统详细报告 ===\n");
    
    // 基本信息
    printf("【基本信息】\n");
    printf("  操作系统: %s\n", info->sysname);
    printf("  主机名称: %s\n", info->nodename);
    printf("  硬件架构: %s\n", info->machine);
    
    // 内核信息
    printf("【内核信息】\n");
    printf("  发行版本: %s\n", info->release);
    printf("  构建信息: %s\n", info->version);
    
    // 系统特征
    printf("【系统特征】\n");
    
    // 架构特征
    if (strcmp(info->machine, "x86_64") == 0) {
        printf("  架构类型: 64位Intel/AMD x86\n");
        printf("  指令集: 支持SSE, AVX等扩展指令\n");
    } else if (strcmp(info->machine, "aarch64") == 0) {
        printf("  架构类型: 64位ARM\n");
        printf("  指令集: ARMv8-A架构\n");
    } else if (strncmp(info->machine, "arm", 3) == 0) {
        printf("  架构类型: 32位ARM\n");
        printf("  指令集: ARM架构\n");
    } else {
        printf("  架构类型: %s\n", info->machine);
    }
    
    // 操作系统特征
    if (strcmp(info->sysname, "Linux") == 0) {
        printf("  系统类型: 类Unix操作系统\n");
        printf("  系统调用: POSIX兼容\n");
        printf("  文件系统: 支持ext4, xfs, btrfs等\n");
    }
    
    // 版本特征
    printf("【版本特征】\n");
    if (strstr(info->version, "Ubuntu")) {
        printf("  发行版: Ubuntu系列\n");
    } else if (strstr(info->version, "Debian")) {
        printf("  发行版: Debian系列\n");
    } else if (strstr(info->version, "CentOS") || 
               strstr(info->version, "Red Hat")) {
        printf("  发行版: Red Hat系列\n");
    } else if (strstr(info->version, "SUSE")) {
        printf("  发行版: SUSE系列\n");
    }
    
    // 安全特征
    printf("【安全特征】\n");
    printf("  用户权限: 支持多用户权限管理\n");
    printf("  进程隔离: 支持进程间隔离\n");
    printf("  内存保护: 支持内存保护机制\n");
}

int main() {
    struct utsname current_info;
    system_snapshot_t snapshot1, snapshot2;
    
    printf("=== 系统信息综合应用示例 ===\n\n");
    
    // 获取当前系统信息
    if (uname(&current_info) == -1) {
        perror("uname调用失败");
        exit(EXIT_FAILURE);
    }
    
    // 保存快照
    if (save_system_snapshot(&snapshot1) == -1) {
        perror("保存快照1失败");
        exit(EXIT_FAILURE);
    }
    
    printf("1. 当前系统信息:\n");
    printf("   操作系统: %s\n", current_info.sysname);
    printf("   内核版本: %s\n", current_info.release);
    printf("   硬件架构: %s\n", current_info.machine);
    
    // 模拟系统变化（实际中可能需要等待系统更新）
    sleep(1);
    
    if (save_system_snapshot(&snapshot2) == -1) {
        perror("保存快照2失败");
        exit(EXIT_FAILURE);
    }
    
    // 比较快照
    printf("\n2. 系统快照比较:\n");
    compare_system_snapshots(&snapshot1, &snapshot2);
    
    // 兼容性检查
    printf("\n3. 系统兼容性检查:\n");
    int compatible = check_system_compatibility(&current_info);
    if (compatible) {
        printf("✓ 系统兼容性检查通过\n");
    } else {
        printf("✗ 系统兼容性检查未通过\n");
    }
    
    // 生成详细报告
    printf("\n4. 生成系统详细报告:\n");
    generate_system_report(&current_info);
    
    // 应用场景演示
    printf("\n5. 应用场景演示:\n");
    
    // 根据系统信息选择不同的处理逻辑
    if (strcmp(current_info.sysname, "Linux") == 0) {
        printf("   执行Linux特定代码路径\n");
        
        // 根据架构选择优化
        if (strcmp(current_info.machine, "x86_64") == 0) {
            printf("   启用x86_64优化选项\n");
        } else if (strcmp(current_info.machine, "aarch64") == 0) {
            printf("   启用ARM64优化选项\n");
        }
        
        // 根据内核版本启用特性
        int major, minor;
        if (sscanf(current_info.release, "%d.%d", &major, &minor) >= 2) {
            if (major >= 4) {
                printf("   启用现代内核特性\n");
            }
        }
    }
    
    printf("\n=== 演示完成 ===\n");
    
    return 0;
}

示例4：跨平台系统信息工具

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/utsname.h>
#include <string.h>
#include <time.h>

#ifdef __APPLE__
#include <sys/sysctl.h>
#endif

// 系统信息结构体
typedef struct {
    char os_name[256];
    char hostname[256];
    char kernel_version[256];
    char architecture[256];
    char distribution[256];
    long uptime_seconds;
    int cpu_count;
} extended_system_info_t;

// 获取扩展系统信息
int get_extended_system_info(extended_system_info_t* info) {
    struct utsname basic_info;
    
    // 获取基本系统信息
    if (uname(&basic_info) == -1) {
        return -1;
    }
    
    // 复制基本信息
    strncpy(info->os_name, basic_info.sysname, sizeof(info->os_name) - 1);
    strncpy(info->hostname, basic_info.nodename, sizeof(info->hostname) - 1);
    strncpy(info->kernel_version, basic_info.release, sizeof(info->kernel_version) - 1);
    strncpy(info->architecture, basic_info.machine, sizeof(info->architecture) - 1);
    
    // 初始化其他字段
    strcpy(info->distribution, "Unknown");
    info->uptime_seconds = 0;
    info->cpu_count = 1;
    
    // 根据不同系统获取额外信息
    if (strcmp(basic_info.sysname, "Linux") == 0) {
        // Linux系统特有信息
        
        // 尝试读取发行版信息
        FILE* fp = fopen("/etc/os-release", "r");
        if (fp) {
            char line[256];
            while (fgets(line, sizeof(line), fp)) {
                if (strncmp(line, "PRETTY_NAME=", 12) == 0) {
                    char* start = strchr(line, '"');
                    if (start) {
                        char* end = strchr(start + 1, '"');
                        if (end) {
                            *end = '\0';
                            strncpy(info->distribution, start + 1, sizeof(info->distribution) - 1);
                            break;
                        }
                    }
                }
            }
            fclose(fp);
        }
        
        // 获取系统运行时间
        fp = fopen("/proc/uptime", "r");
        if (fp) {
            double uptime;
            if (fscanf(fp, "%lf", &uptime) == 1) {
                info->uptime_seconds = (long)uptime;
            }
            fclose(fp);
        }
        
        // 获取CPU数量
        fp = fopen("/proc/cpuinfo", "r");
        if (fp) {
            char line[256];
            int cpu_count = 0;
            while (fgets(line, sizeof(line), fp)) {
                if (strncmp(line, "processor", 9) == 0) {
                    cpu_count++;
                }
            }
            if (cpu_count > 0) {
                info->cpu_count = cpu_count;
            }
            fclose(fp);
        }
        
    } 
#ifdef __APPLE__
    else if (strcmp(basic_info.sysname, "Darwin") == 0) {
        // macOS系统特有信息
        strcpy(info->distribution, "macOS");
        
        // 获取CPU数量
        int mib[2] = {CTL_HW, HW_NCPU};
        size_t len = sizeof(info->cpu_count);
        sysctl(mib, 2, &info->cpu_count, &len, NULL, 0);
    }
#endif
    
    return 0;
}

// 格式化显示时间
void format_uptime(long seconds, char* buffer, size_t buffer_size) {
    long days = seconds / 86400;
    long hours = (seconds % 86400) / 3600;
    long minutes = (seconds % 3600) / 60;
    
    if (days > 0) {
        snprintf(buffer, buffer_size, "%ld天 %ld小时 %ld分钟", days, hours, minutes);
    } else if (hours > 0) {
        snprintf(buffer, buffer_size, "%ld小时 %ld分钟", hours, minutes);
    } else {
        snprintf(buffer, buffer_size, "%ld分钟", minutes);
    }
}

// 显示系统信息
void display_system_info(const extended_system_info_t* info) {
    printf("╔══════════════════════════════════════════════════════════════╗\n");
    printf("║                    系统信息报告                              ║\n");
    printf("╠══════════════════════════════════════════════════════════════╣\n");
    printf("║ 操作系统: %-48s ║\n", info->os_name);
    printf("║ 主机名称: %-48s ║\n", info->hostname);
    printf("║ 内核版本: %-48s ║\n", info->kernel_version);
    printf("║ 硬件架构: %-48s ║\n", info->architecture);
    printf("║ 发行版本: %-48s ║\n", info->distribution);
    
    // 显示系统运行时间
    if (info->uptime_seconds > 0) {
        char uptime_str[64];
        format_uptime(info->uptime_seconds, uptime_str, sizeof(uptime_str));
        printf("║ 运行时间: %-48s ║\n", uptime_str);
    }
    
    printf("║ CPU核心数: %-47d ║\n", info->cpu_count);
    printf("╚══════════════════════════════════════════════════════════════╝\n");
}

// 生成JSON格式的系统信息
void generate_json_info(const extended_system_info_t* info) {
    printf("\nJSON格式系统信息:\n");
    printf("{\n");
    printf("  \"os_name\": \"%s\",\n", info->os_name);
    printf("  \"hostname\": \"%s\",\n", info->hostname);
    printf("  \"kernel_version\": \"%s\",\n", info->kernel_version);
    printf("  \"architecture\": \"%s\",\n", info->architecture);
    printf("  \"distribution\": \"%s\",\n", info->distribution);
    printf("  \"uptime_seconds\": %ld,\n", info->uptime_seconds);
    printf("  \"cpu_count\": %d\n", info->cpu_count);
    printf("}\n");
}

// 系统健康检查
void system_health_check(const extended_system_info_t* info) {
    printf("\n系统健康检查:\n");
    printf("----------------\n");
    
    // 检查系统类型
    if (strcmp(info->os_name, "Linux") == 0) {
        printf("✓ Linux系统环境\n");
    } else {
        printf("ℹ 非Linux系统: %s\n", info->os_name);
    }
    
    // 检查架构
    if (strcmp(info->architecture, "x86_64") == 0) {
        printf("✓ 64位x86架构\n");
    } else if (strcmp(info->architecture, "aarch64") == 0) {
        printf("✓ 64位ARM架构\n");
    } else {
        printf("ℹ 其他架构: %s\n", info->architecture);
    }
    
    // 检查CPU数量
    if (info->cpu_count >= 4) {
        printf("✓ 多核心系统 (%d核心)\n", info->cpu_count);
    } else if (info->cpu_count >= 2) {
        printf("✓ 双核心系统\n");
    } else {
        printf("ℹ 单核心系统\n");
    }
    
    // 检查运行时间
    if (info->uptime_seconds > 0) {
        if (info->uptime_seconds > 86400) {  // 超过一天
            printf("✓ 系统稳定运行中\n");
        } else {
            printf("ℹ 系统运行时间较短\n");
        }
    }
}

int main() {
    extended_system_info_t sys_info;
    
    printf("=== 跨平台系统信息工具 ===\n\n");
    
    // 获取扩展系统信息
    if (get_extended_system_info(&sys_info) == -1) {
        perror("获取系统信息失败");
        exit(EXIT_FAILURE);
    }
    
    // 显示系统信息
    display_system_info(&sys_info);
    
    // 系统健康检查
    system_health_check(&sys_info);
    
    // 生成JSON格式信息
    generate_json_info(&sys_info);
    
    // 应用场景示例
    printf("\n应用场景适配:\n");
    printf("----------------\n");
    
    // 根据系统类型选择不同的处理
    if (strcmp(sys_info.os_name, "Linux") == 0) {
        printf("→ 启用Linux优化模式\n");
        
        // 根据发行版调整配置
        if (strstr(sys_info.distribution, "Ubuntu")) {
            printf("→ 应用Ubuntu特定配置\n");
        } else if (strstr(sys_info.distribution, "CentOS") || 
                   strstr(sys_info.distribution, "Red Hat")) {
            printf("→ 应用Red Hat特定配置\n");
        }
        
    } else if (strcmp(sys_info.os_name, "Darwin") == 0) {
        printf("→ 启用macOS优化模式\n");
    } else {
        printf("→ 使用通用配置\n");
    }
    
    // 根据CPU数量调整并行度
    printf("→ 建议并行任务数: %d\n", sys_info.cpu_count);
    
    printf("\n=== 工具执行完成 ===\n");
    
    return 0;
}

编译和运行

# 编译示例1
gcc -o uname_example1 uname_example1.c
./uname_example1

# 编译示例2
gcc -o uname_example2 uname_example2.c
./uname_example2

# 编译示例3
gcc -o uname_example3 uname_example3.c
./uname_example3

# 编译示例4
gcc -o uname_example4 uname_example4.c
./uname_example4

重要注意事项

结构体大小: utsname结构体的大小在不同系统中可能不同
域名支持: domainname字段不是所有系统都支持
权限要求: 通常不需要特殊权限即可调用
线程安全: uname函数是线程安全的
错误处理: 失败时主要返回EFAULT错误
字符编码: 返回的字符串通常是ASCII编码
缓冲区: 传入的结构体必须由调用者分配

常见应用场景

系统兼容性检测: 程序启动时检查运行环境
日志记录: 在日志中记录系统环境信息
调试信息: 帮助开发者了解运行环境
配置管理: 根据系统类型选择不同配置
性能优化: 根据硬件架构选择优化策略

通过这些示例，你可以理解uname函数在获取系统信息方面的强大功能，它为程序提供了识别和适应不同运行环境的能力。

发表在 linux文章 | 留下评论

unlink系统调用及示例

发表于2025-08-07由麦芽爸

26. unlink – 删除文件或硬链接

函数介绍

unlink系统调用用于删除文件或硬链接。当文件的所有硬链接都被删除且没有进程打开该文件时，文件数据才会被真正删除。

函数原型

#include <unistd.h>

int unlink(const char *pathname);

功能

删除指定路径的文件或硬链接。

参数

const char *pathname: 要删除的文件路径

返回值

成功时返回0
失败时返回-1，并设置errno

特殊限制

只能删除文件，不能删除目录（使用rmdir）
如果文件正被进程打开，文件数据不会立即删除

相似函数

rmdir(): 删除空目录
remove(): 删除文件或空目录
unlinkat(): 相对路径版本

示例代码

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <errno.h>
#include <string.h>
#include <sys/stat.h>

int main() {
    int fd;
    struct stat st;
    
    printf("=== Unlink函数示例 ===\n");
    
    // 示例1: 基本文件删除
    printf("示例1: 基本文件删除\n");
    
    // 创建测试文件
    fd = open("test_unlink.txt", O_CREAT | O_WRONLY, 0644);
    if (fd != -1) {
        write(fd, "Test content for unlink", 23);
        close(fd);
        printf("创建测试文件\n");
    }
    
    // 删除文件
    if (unlink("test_unlink.txt") == -1) {
        perror("删除文件失败");
    } else {
        printf("成功删除文件\n");
        
        // 验证文件已删除
        if (access("test_unlink.txt", F_OK) == -1) {
            printf("文件确实已删除\n");
        }
    }
    
    // 示例2: 硬链接删除演示
    printf("示例2: 硬链接删除演示\n");
    
    // 创建文件和硬链接
    fd = open("multi_link.txt", O_CREAT | O_WRONLY, 0644);
    if (fd != -1) {
        write(fd, "Content with multiple links", 27);
        close(fd);
    }
    
    if (link("multi_link.txt", "second_link.txt") == 0) {
        printf("创建硬链接\n");
        
        // 检查链接数
        if (stat("multi_link.txt", &st) == 0) {
            printf("当前链接数: %ld\n", st.st_nlink);
        }
        
        // 删除一个链接
        if (unlink("second_link.txt") == 0) {
            printf("删除一个链接\n");
            
            if (stat("multi_link.txt", &st) == 0) {
                printf("剩余链接数: %ld\n", st.st_nlink);
                printf("文件数据仍然存在\n");
            }
        }
    }
    
    // 示例3: 文件被打开时的删除
    printf("示例3: 文件被打开时的删除\n");
    
    fd = open("open_file.txt", O_CREAT | O_WRONLY, 0644);
    if (fd != -1) {
        write(fd, "Content of open file", 20);
        printf("创建并打开文件\n");
        
        // 删除已打开的文件
        if (unlink("open_file.txt") == 0) {
            printf("删除已打开的文件（文件仍可访问）\n");
            
            // 仍可以读写文件
            lseek(fd, 0, SEEK_SET);
            char buffer[50];
            int n = read(fd, buffer, sizeof(buffer));
            if (n > 0) {
                buffer[n] = '\0';
                printf("文件内容: %s\n", buffer);
            }
            
            // 关闭文件后，数据才真正删除
            close(fd);
            printf("关闭文件后，数据真正删除\n");
        }
    }
    
    // 清理剩余文件
    unlink("multi_link.txt");
    
    return 0;
}

unlink系统调用及示例

Linux开源软件路线图

发表在 linux文章 | 留下评论

unshare系统调用及示例

发表于2025-08-07由麦芽爸

好的，我们来深入学习 unshare 系统调用

1. 函数介绍

在 Linux 系统中，命名空间 (Namespaces) 是内核提供的一种强大的隔离机制。它允许将一组进程及其资源（如网络接口、挂载点、进程 ID 等）与系统上的其他进程隔离开来，仿佛它们运行在独立的系统中一样。这是实现 容器 (Containers) 技术（如 Docker, LXC）的核心基础之一。

通常，当我们使用 clone() 系统调用创建新进程时，可以通过传递特定的 CLONE_NEW* 标志（如 CLONE_NEWNET, CLONE_NEWNS），让新进程在全新的命名空间中启动。

但是，有时候我们希望当前正在运行的进程能够脱离它当前所处的某个命名空间，并进入一个新创建的、空的同类型命名空间。这正是 unshare 系统调用所做的事情。

简单来说，unshare 就是让一个正在运行的进程说：“我不想和别人共享我的 [网络/文件系统/用户ID空间] 了，给我一个全新的、只属于我自己的！”

想象一下，你在一个大办公室（原始命名空间）里工作，突然你想拥有一个完全私密的、只有你一个人的小房间（新命名空间）来处理一些敏感任务。unshare 就像是帮你瞬间建造并搬进这个小房间的过程。

2. 函数原型

#define _GNU_SOURCE // 启用 GNU 扩展以使用 unshare
#include <sched.h>  // 包含 unshare 函数声明和 CLONE_NEW* 常量

int unshare(int flags);

3. 功能

使调用线程（进程）脱离当前由 flags 参数指定的一个或多个命名空间，并使该线程进入新创建的、空的同类型命名空间。

4. 参数

flags:
- int 类型。
- 一个位掩码，指定了调用进程希望脱离并重新加入的命名空间类型。可以是以下一个或多个标志的按位或 (|) 组合：
  - CLONE_NEWCGROUP: 创建新的 Cgroup 命名空间。
  - CLONE_NEWIPC: 创建新的 IPC (Inter-Process Communication) 命名空间。
  - CLONE_NEWNET: 创建新的 Network 命名空间。
  - CLONE_NEWNS: 创建新的 Mount 命名空间。
  - CLONE_NEWPID: 创建新的 PID (Process ID) 命名空间。
  - CLONE_NEWUSER: 创建新的 User 命名空间。
  - CLONE_NEWUTS: 创建新的 UTS (UNIX Timesharing System) 命名空间。

重要提示：

unshare 只影响调用线程本身。如果进程是多线程的，其他线程仍然留在原来的命名空间中。
新创建的命名空间是空的。例如，新的 Network 命名空间只有 lo (回环) 接口；新的 PID 命名空间中调用进程将成为 PID 1。
权限和限制：创建某些命名空间（尤其是 CLONE_NEWUSER）可能需要特殊权限或遵循复杂的规则。

5. 返回值

成功: 返回 0。
失败: 返回 -1，并设置全局变量 errno 来指示具体的错误原因。

6. 错误码 (`errno`)

EFAULT: flags 中指定的地址无效（不太常见）。
EINVAL: flags 包含无效或不支持的标志，或者尝试同时 unshare CLONE_NEWPID 和其他需要特权的命名空间。
ENOMEM: 内核内存不足。
EPERM: 调用者没有权限创建请求的命名空间。例如：
- 创建 CLONE_NEWUSER 命名空间通常需要进程没有被其他进程跟踪（ptrace）。
- 创建 CLONE_NEWPID 通常需要进程是多线程的，或者有其他限制。
EUSERS: (对于 CLONE_NEWUSER) 达到了每个用户命名空间的最大所有者数量限制。
ENOSPC: (对于 CLONE_NEWPID) 达到了系统范围内的最大嵌套 PID 命名空间层级限制。

7. 相似函数或关联函数

clone: 创建新进程时，可以通过 CLONE_NEW* 标志使其在新的命名空间中启动。
setns: 将调用进程加入一个已存在的命名空间。
/proc/[pid]/ns/: 这个目录包含了进程所处的各种命名空间的符号链接文件。通过打开这些文件可以获得命名空间的文件描述符。
unshare 命令: 一个命令行工具，可以在取消共享指定的命名空间后执行命令。它在底层使用了 unshare() 系统调用。
namespace 相关系统调用: clone, setns, unshare 共同构成了 Linux 命名空间操作的基础。

8. 示例代码

下面的示例演示了如何使用 unshare 来隔离网络和挂载命名空间。

警告：此示例需要 root 权限来执行某些操作（如挂载文件系统）。

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sched.h>    // 包含 unshare, CLONE_NEW* 常量
#include <sys/mount.h> // 包含 mount
#include <sys/stat.h>  // 包含 mkdir
#include <sys/wait.h>  // 包含 waitpid
#include <errno.h>
#include <string.h>
#include <fcntl.h>    // 包含 open, O_* flags

void print_current_namespaces() {
    char buffer[256];
    pid_t pid = getpid();

    printf("Current namespaces for PID %d:\n", pid);
    // 读取并打印网络命名空间 inode
    ssize_t len = readlink("/proc/self/ns/net", buffer, sizeof(buffer) - 1);
    if (len != -1) {
        buffer[len] = '\0';
        printf("  Network: %s\n", buffer);
    } else {
        perror("  readlink /proc/self/ns/net");
    }

    // 读取并打印挂载命名空间 inode
    len = readlink("/proc/self/ns/mnt", buffer, sizeof(buffer) - 1);
    if (len != -1) {
        buffer[len] = '\0';
        printf("  Mount:   %s\n", buffer);
    } else {
        perror("  readlink /proc/self/ns/mnt");
    }
    printf("\n");
}

int main() {
    printf("--- Demonstrating unshare ---\n");
    printf("Main process PID: %d\n", getpid());

    // 1. 显示初始命名空间
    printf("1. Initial namespaces:\n");
    print_current_namespaces();

    // 2. 使用 unshare 脱离当前的 Network 和 Mount 命名空间
    printf("2. Calling unshare(CLONE_NEWNET | CLONE_NEWNS)...\n");
    if (unshare(CLONE_NEWNET | CLONE_NEWNS) == -1) {
        perror("unshare");
        fprintf(stderr, "Do you have root privileges?\n");
        exit(EXIT_FAILURE);
    }
    printf("unshare() succeeded.\n");

    // 3. 再次显示命名空间，应该已经改变
    printf("3. Namespaces after unshare:\n");
    print_current_namespaces();

    // 4. 在新的 Network 命名空间中，网络接口视图是隔离的
    printf("4. --- Network Isolation ---\n");
    printf("Running 'ip link show' in new network namespace:\n");
    // 使用 system 调用执行命令来查看网络接口
    int ret = system("ip link show");
    if (ret == -1) {
        perror("system ip link");
    }
    printf("Note: You should only see the 'lo' (loopback) interface.\n");
    printf("\n");

    // 5. 在新的 Mount 命名空间中，挂载操作是隔离的
    printf("5. --- Mount Isolation ---\n");
    const char *mount_point = "/tmp/unshare_test_mount";
    if (mkdir(mount_point, 0755) == -1 && errno != EEXIST) {
        perror("mkdir mount point");
    } else {
        printf("Created directory %s\n", mount_point);
    }

    if (mount("tmpfs", mount_point, "tmpfs", 0, NULL) == -1) {
        perror("mount tmpfs");
    } else {
        printf("Mounted tmpfs on %s\n", mount_point);
        printf("This mount is only visible inside this process's mount namespace.\n");
    }

    // 6. 演示挂载隔离：在新的命名空间中创建一个文件
    char test_file_path[256];
    snprintf(test_file_path, sizeof(test_file_path), "%s/test_file.txt", mount_point);
    FILE *f = fopen(test_file_path, "w");
    if (f) {
        fprintf(f, "Hello from process in its own mount namespace!\n");
        fclose(f);
        printf("Created file %s\n", test_file_path);
    } else {
        perror("fopen test_file.txt");
    }

    printf("\n--- Summary ---\n");
    printf("1. The main process called unshare() to get new, isolated Network and Mount namespaces.\n");
    printf("2. Network namespace: 'ip link show' only displays the loopback interface.\n");
    printf("3. Mount namespace: A tmpfs mounted on %s is private to this process.\n", mount_point);
    printf("4. If you run 'mount' or 'ip link show' in another terminal (outside this process),\n");
    printf("   you will see the global network interfaces and mounts, not these isolated ones.\n");

    // 7. 清理 (可选，因为退出时会自动清理命名空间)
    // umount(mount_point);
    // rmdir(mount_point);

    printf("\nProgram finished. The isolated namespaces cease to exist when this process exits.\n");
    return 0;
}

9. 使用 `unshare` 命令行工具的对比示例

unshare 命令行工具是用户更常接触到的使用 unshare 系统调用的方式。

# 1. 在当前 shell 中取消共享网络命名空间，并运行一个命令
# 这会启动一个新的 shell，它在网络和挂载上都是隔离的
unshare -n -m /bin/bash

# (你现在在一个新的 shell 中，提示符可能略有不同)
# $ ip link show
# 1: lo: <LOOPBACK> mtu 65536 qdisc noop state DOWN mode DEFAULT group default qlen 1000
#     link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
# (只有 lo 接口)

# $ mount -t tmpfs tmpfs /tmp/isolated_tmp
# $ mount | grep isolated_tmp
# tmpfs on /tmp/isolated_tmp type tmpfs (rw,relatime)
# (这个挂载只在这个 unshare 的会话中可见)

# $ exit
# (退出隔离的 shell)

# 2. 回到原 shell，检查隔离效果
# $ ip link show
# (你会看到所有正常的网络接口，如 eth0, wlan0 等)
# $ mount | grep isolated_tmp
# (应该找不到这个挂载点)

10. 编译和运行

# 假设代码保存在 unshare_example.c 中
gcc -o unshare_example unshare_example.c

# 运行程序 (需要 root 权限)
sudo ./unshare_example

11. 预期输出

--- Demonstrating unshare ---
Main process PID: 12345
1. Initial namespaces:
Current namespaces for PID 12345:
  Network: net:[4026531992]
  Mount:   mnt:[4026531991]

2. Calling unshare(CLONE_NEWNET | CLONE_NEWNS)...
unshare() succeeded.
3. Namespaces after unshare:
Current namespaces for PID 12345:
  Network: net:[4026532222]  <-- Changed
  Mount:   mnt:[4026532223]  <-- Changed

4. --- Network Isolation ---
Running 'ip link show' in new network namespace:
1: lo: <LOOPBACK> mtu 65536 qdisc noop state DOWN mode DEFAULT group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
Note: You should only see the 'lo' (loopback) interface.

5. --- Mount Isolation ---
Created directory /tmp/unshare_test_mount
Mounted tmpfs on /tmp/unshare_test_mount
This mount is only visible inside this process's mount namespace.
Created file /tmp/unshare_test_mount/test_file.txt

--- Summary ---
1. The main process called unshare() to get new, isolated Network and Mount namespaces.
2. Network namespace: 'ip link show' only displays the loopback interface.
3. Mount namespace: A tmpfs mounted on /tmp/unshare_test_mount is private to this process.
4. If you run 'mount' or 'ip link show' in another terminal (outside this process),
   you will see the global network interfaces and mounts, not these isolated ones.

Program finished. The isolated namespaces cease to exist when this process exits.

12. 总结

unshare 是 Linux 命名空间功能的关键系统调用之一。

核心作用：让当前运行的进程脱离现有的命名空间，并加入新创建的、空的同类型命名空间。
与 clone 和 setns 的区别：
- clone: 创建新进程时分配新命名空间。
- setns: 加入一个已存在的命名空间。
- unshare: 为当前进程创建并加入新的命名空间。
应用场景：
- 容器技术：容器运行时使用 unshare 来为容器进程提供隔离环境。
- 系统管理脚本：在执行可能影响全局环境的操作前，先 unshare 进入隔离环境，避免影响宿主机。
- 安全沙箱：为不受信任的程序创建隔离的运行环境。
权限：通常需要 root 权限，特别是涉及挂载、网络等操作时。

理解 unshare 有助于深入理解 Linux 容器和进程隔离的原理。对于 Linux 编程新手来说，它是掌握现代 Linux 系统编程和容器化技术的重要一环。

发表在 linux文章 | 留下评论

uselib系统调用及示例

发表于2025-08-07由麦芽爸

uselib 函数详解

1. 函数介绍

uselib 是Linux系统调用，用于将指定的共享库加载到调用进程的地址空间中。它允许程序动态加载和使用共享库，而无需在编译时链接这些库。这个函数主要用于实现动态库加载和插件系统。

2. 函数原型

#include <unistd.h>
int uselib(const char *library);

3. 功能

uselib 将指定路径的共享库文件加载到当前进程的地址空间中，使得库中的符号可以在运行时被解析和使用。它主要用于动态加载共享库，支持构建灵活的插件架构和模块化应用程序。

4. 参数

*const char library: 指向共享库文件路径的字符串指针

5. 返回值

成功: 返回0
失败: 返回-1，并设置errno

6. 相似函数，或关联函数

dlopen/dlsym/dlclose: 更现代的动态库加载接口
mmap: 内存映射文件
ld.so: 动态链接器
RTLD_*: 动态加载标志

7. 示例代码

示例1：基础uselib使用

#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <dlfcn.h>
#include <sys/stat.h>
#include <fcntl.h>

/**
 * 演示基础uselib使用方法
 */
int demo_uselib_basic() {
    const char *library_path = "/lib/x86_64-linux-gnu/libc.so.6";  // 系统C库
    int result;
    
    printf("=== 基础uselib使用示例 ===\n");
    
    // 显示当前系统信息
    printf("系统信息:\n");
    system("uname -a");
    printf("\n");
    
    // 检查库文件是否存在
    printf("1. 检查库文件:\n");
    printf("   库文件路径: %s\n", library_path);
    
    struct stat st;
    if (stat(library_path, &st) == 0) {
        printf("   ✓ 文件存在\n");
        printf("   文件大小: %ld 字节\n", st.st_size);
        printf("   文件权限: %o\n", st.st_mode & 0777);
    } else {
        printf("   ✗ 文件不存在: %s\n", strerror(errno));
        printf("   注意：不同系统的库路径可能不同\n");
        return 0;  // 不返回错误，因为这是演示
    }
    
    // 尝试使用uselib加载库
    printf("\n2. 使用uselib加载库:\n");
    printf("   调用: uselib(\"%s\")\n", library_path);
    
    result = uselib(library_path);
    if (result == 0) {
        printf("   ✓ 库加载成功\n");
        
        // 验证库是否真的被加载
        printf("   验证库加载状态:\n");
        
        // 尝试使用dlopen检查库是否可用
        void *handle = dlopen(library_path, RTLD_LAZY | RTLD_NOLOAD);
        if (handle) {
            printf("   ✓ 通过dlopen验证库已加载\n");
            dlclose(handle);
        } else {
            printf("   ℹ uselib可能只是标记库为已加载\n");
        }
        
    } else {
        printf("   ✗ 库加载失败: %s\n", strerror(errno));
        if (errno == ENOENT) {
            printf("   原因：文件不存在\n");
        } else if (errno == EACCES) {
            printf("   原因：权限不足\n");
        } else if (errno == ENOEXEC) {
            printf("   原因：文件不是有效的可执行文件\n");
        } else if (errno == EPERM) {
            printf("   原因：操作被禁止（可能已过时）\n");
        }
    }
    
    // 演示加载不存在的库
    printf("\n3. 演示加载不存在的库:\n");
    const char *nonexistent_lib = "/nonexistent/library.so";
    printf("   尝试加载: %s\n", nonexistent_lib);
    
    result = uselib(nonexistent_lib);
    if (result == -1) {
        printf("   ✓ 预期失败: %s\n", strerror(errno));
        if (errno == ENOENT) {
            printf("   正确：文件不存在\n");
        }
    } else {
        printf("   ✗ 意外成功\n");
    }
    
    // 显示uselib的历史和现状
    printf("\n4. uselib状态说明:\n");
    printf("   历史作用：早期Linux用于动态加载共享库\n");
    printf("   当前状态：在现代Linux中已被弃用\n");
    printf("   替代方案：使用dlopen/dlsym等现代接口\n");
    printf("   兼容性：某些系统可能仍支持，但不推荐使用\n");
    
    return 0;
}

int main() {
    return demo_uselib_basic();
}

示例2：现代动态库加载对比

#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <dlfcn.h>
#include <sys/stat.h>
#include <unistd.h>

/**
 * 现代动态库加载演示
 */
int demo_modern_dl_loading() {
    const char *system_lib = "/lib/x86_64-linux-gnu/libc.so.6";
    const char *math_lib = "/lib/x86_64-linux-gnu/libm.so.6";
    
    printf("=== 现代动态库加载对比演示 ===\n");
    
    // 1. 使用dlopen加载系统库
    printf("1. 使用dlopen加载系统库:\n");
    printf("   加载目标: %s\n", system_lib);
    
    void *libc_handle = dlopen(system_lib, RTLD_LAZY);
    if (libc_handle) {
        printf("   ✓ dlopen加载成功\n");
        
        // 获取函数符号
        void *(*malloc_func)(size_t) = dlsym(libc_handle, "malloc");
        if (malloc_func) {
            printf("   ✓ 成功获取malloc函数地址: %p\n", malloc_func);
            
            // 测试函数调用
            void *ptr = malloc_func(1024);
            if (ptr) {
                printf("   ✓ malloc函数调用成功\n");
                void (*free_func)(void*) = dlsym(libc_handle, "free");
                if (free_func) {
                    free_func(ptr);
                    printf("   ✓ free函数调用成功\n");
                }
            }
        } else {
            printf("   ✗ 获取malloc函数失败: %s\n", dlerror());
        }
        
        // 不立即关闭，继续使用
    } else {
        printf("   ✗ dlopen加载失败: %s\n", dlerror());
    }
    
    // 2. 加载数学库
    printf("\n2. 加载数学库:\n");
    printf("   加载目标: %s\n", math_lib);
    
    void *libm_handle = dlopen(math_lib, RTLD_LAZY);
    if (libm_handle) {
        printf("   ✓ 数学库加载成功\n");
        
        // 获取sin函数
        double (*sin_func)(double) = dlsym(libm_handle, "sin");
        if (sin_func) {
            printf("   ✓ 成功获取sin函数地址: %p\n", sin_func);
            
            // 测试函数调用
            double result = sin_func(3.14159 / 2);  // sin(π/2) ≈ 1
            printf("   ✓ sin(π/2) = %.6f\n", result);
        } else {
            printf("   ✗ 获取sin函数失败: %s\n", dlerror());
        }
    } else {
        printf("   ✗ 数学库加载失败: %s\n", dlerror());
    }
    
    // 3. 错误处理演示
    printf("\n3. 错误处理演示:\n");
    printf("   尝试加载不存在的库:\n");
    
    void *bad_handle = dlopen("/nonexistent/badlib.so", RTLD_LAZY);
    if (bad_handle) {
        printf("   ✗ 意外成功加载不存在的库\n");
        dlclose(bad_handle);
    } else {
        printf("   ✓ 正确处理不存在的库: %s\n", dlerror());
    }
    
    // 4. 符号查找演示
    printf("\n4. 符号查找演示:\n");
    
    // 在libc中查找各种函数
    const char *functions[] = {"printf", "strlen", "memcpy", "memset", NULL};
    
    for (int i = 0; functions[i]; i++) {
        void *func_addr = dlsym(libc_handle, functions[i]);
        if (func_addr) {
            printf("   %s: %p\n", functions[i], func_addr);
        } else {
            printf("   %s: 未找到 (%s)\n", functions[i], dlerror());
        }
    }
    
    // 5. 库信息显示
    printf("\n5. 加载的库信息:\n");
    
    if (libc_handle) {
        // 获取库信息（注意：这不是标准的dlinfo）
        printf("   C库句柄: %p\n", libc_handle);
        
        // 显示库引用计数（伪代码，实际需要更复杂的实现）
        printf("   C库已加载\n");
    }
    
    if (libm_handle) {
        printf("   数学库句柄: %p\n", libm_handle);
        printf("   数学库已加载\n");
    }
    
    // 6. 清理资源
    printf("\n6. 清理资源:\n");
    
    if (libc_handle) {
        if (dlclose(libc_handle) == 0) {
            printf("   ✓ C库句柄关闭成功\n");
        } else {
            printf("   ✗ C库句柄关闭失败: %s\n", dlerror());
        }
    }
    
    if (libm_handle) {
        if (dlclose(libm_handle) == 0) {
            printf("   ✓ 数学库句柄关闭成功\n");
        } else {
            printf("   ✗ 数学库句柄关闭失败: %s\n", dlerror());
        }
    }
    
    // 7. 显示现代动态加载的优势
    printf("\n=== 现代动态加载优势 ===\n");
    printf("1. 功能完整:\n");
    printf("   ✓ 支持符号查找和调用\n");
    printf("   ✓ 支持引用计数管理\n");
    printf("   ✓ 支持错误处理和诊断\n");
    printf("   ✓ 支持多种加载模式\n");
    
    printf("\n2. 安全特性:\n");
    printf("   ✓ 支持版本检查\n");
    printf("   ✓ 支持依赖关系管理\n");
    printf("   ✓ 支持安全的库卸载\n");
    printf("   ✓ 支持插件隔离\n");
    
    printf("\n3. 灵活性:\n");
    printf("   ✓ 支持运行时库选择\n");
    printf("   ✓ 支持条件加载\n");
    printf("   ✓ 支持热插拔\n");
    printf("   ✓ 支持延迟加载\n");
    
    return 0;
}

int main() {
    return demo_modern_dl_loading();
}

示例3：插件系统架构演示

#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <dlfcn.h>
#include <dirent.h>
#include <sys/stat.h>

/**
 * 插件接口定义
 */
typedef struct {
    const char *name;
    const char *version;
    const char *description;
    int (*initialize)(void);
    int (*execute)(const char *params);
    int (*finalize)(void);
} plugin_interface_t;

/**
 * 插件管理器
 */
typedef struct {
    plugin_interface_t *plugins[32];
    int plugin_count;
    char plugin_directory[256];
} plugin_manager_t;

/**
 * 初始化插件管理器
 */
int init_plugin_manager(plugin_manager_t *manager, const char *plugin_dir) {
    strncpy(manager->plugin_directory, plugin_dir, sizeof(manager->plugin_directory) - 1);
    manager->plugin_directory[sizeof(manager->plugin_directory) - 1] = '\0';
    manager->plugin_count = 0;
    
    printf("插件管理器初始化:\n");
    printf("  插件目录: %s\n", manager->plugin_directory);
    
    // 检查目录是否存在
    struct stat st;
    if (stat(manager->plugin_directory, &st) == 0) {
        if (S_ISDIR(st.st_mode)) {
            printf("  ✓ 插件目录存在\n");
        } else {
            printf("  ✗ 路径不是目录\n");
            return -1;
        }
    } else {
        printf("  ℹ 插件目录不存在，将创建空目录\n");
        // 在实际应用中可能会创建目录
    }
    
    return 0;
}

/**
 * 扫描并加载插件
 */
int scan_and_load_plugins(plugin_manager_t *manager) {
    printf("扫描插件目录: %s\n", manager->plugin_directory);
    
    DIR *dir = opendir(manager->plugin_directory);
    if (!dir) {
        printf("  无法打开插件目录: %s\n", strerror(errno));
        return -1;
    }
    
    struct dirent *entry;
    int loaded_count = 0;
    
    printf("  发现的插件文件:\n");
    
    while ((entry = readdir(dir)) != NULL) {
        // 检查是否为.so文件
        if (strstr(entry->d_name, ".so")) {
            printf("    %s\n", entry->d_name);
            loaded_count++;
            
            // 构造完整路径
            char full_path[512];
            snprintf(full_path, sizeof(full_path), "%s/%s", 
                     manager->plugin_directory, entry->d_name);
            
            // 演示加载过程（实际应用中会真正加载）
            printf("    模拟加载插件: %s\n", entry->d_name);
            
            // 在实际应用中，这里会使用dlopen加载库
            // 并获取插件接口函数
        }
    }
    
    closedir(dir);
    
    printf("  共发现 %d 个插件文件\n", loaded_count);
    manager->plugin_count = loaded_count;
    
    return 0;
}

/**
 * 插件调用演示
 */
void demonstrate_plugin_calls() {
    printf("=== 插件调用演示 ===\n");
    
    // 模拟插件接口
    printf("1. 插件接口定义:\n");
    printf("   typedef struct {\n");
    printf("       const char *name;\n");
    printf("       const char *version;\n");
    printf("       const char *description;\n");
    printf("       int (*initialize)(void);\n");
    printf("       int (*execute)(const char *params);\n");
    printf("       int (*finalize)(void);\n");
    printf("   } plugin_interface_t;\n");
    
    // 模拟插件实例
    printf("\n2. 插件实例演示:\n");
    
    struct {
        const char *name;
        const char *version;
        const char *description;
    } mock_plugins[] = {
        {"数据库插件", "1.0.0", "提供数据库访问功能"},
        {"网络插件", "2.1.3", "提供网络通信功能"},
        {"图形插件", "1.5.2", "提供图形渲染功能"},
        {"音频插件", "3.0.1", "提供音频处理功能"},
        {NULL, NULL, NULL}
    };
    
    for (int i = 0; mock_plugins[i].name; i++) {
        printf("  插件 %d:\n", i + 1);
        printf("    名称: %s\n", mock_plugins[i].name);
        printf("    版本: %s\n", mock_plugins[i].version);
        printf("    描述: %s\n", mock_plugins[i].description);
        printf("    状态: 模拟加载成功\n");
    }
    
    // 模拟插件调用
    printf("\n3. 插件调用演示:\n");
    
    for (int i = 0; mock_plugins[i].name; i++) {
        printf("  调用插件 %d (%s):\n", i + 1, mock_plugins[i].name);
        printf("    initialize() -> 成功\n");
        printf("    execute(\"参数%d\") -> 执行成功\n", i + 1);
        printf("    finalize() -> 成功\n");
    }
}

/**
 * 演示插件系统架构
 */
int demo_plugin_system_architecture() {
    plugin_manager_t manager;
    
    printf("=== 插件系统架构演示 ===\n");
    
    // 初始化插件管理器
    printf("1. 初始化插件管理器:\n");
    if (init_plugin_manager(&manager, "/usr/lib/plugins") != 0) {
        printf("插件管理器初始化失败\n");
        return -1;
    }
    
    // 扫描插件
    printf("\n2. 扫描插件:\n");
    scan_and_load_plugins(&manager);
    
    // 演示插件调用
    printf("\n3. 插件调用演示:\n");
    demonstrate_plugin_calls();
    
    // 显示插件系统架构
    printf("\n=== 插件系统架构说明 ===\n");
    printf("1. 核心组件:\n");
    printf("   ✓ 插件管理器: 负责插件的加载、卸载和管理\n");
    printf("   ✓ 插件接口: 定义插件的标准接口\n");
    printf("   ✓ 插件加载器: 使用dlopen动态加载插件\n");
    printf("   ✓ 符号解析器: 使用dlsym获取插件函数\n");
    
    printf("\n2. 加载流程:\n");
    printf("   1. 扫描插件目录\n");
    printf("   2. 验证插件文件\n");
    printf("   3. 动态加载库文件\n");
    printf("   4. 获取插件接口\n");
    printf("   5. 调用初始化函数\n");
    printf("   6. 注册插件实例\n");
    
    printf("\n3. 调用流程:\n");
    printf("   1. 查找目标插件\n");
    printf("   2. 验证插件状态\n");
    printf("   3. 调用插件函数\n");
    printf("   4. 处理返回结果\n");
    printf("   5. 错误处理\n");
    
    printf("\n4. 安全考虑:\n");
    printf("   ✓ 插件签名验证\n");
    printf("   ✓ 沙箱环境隔离\n");
    printf("   ✓ 权限控制\n");
    printf("   ✓ 资源限制\n");
    printf("   ✓ 异常处理\n");
    
    return 0;
}

int main() {
    return demo_plugin_system_architecture();
}

示例4：动态库版本管理

#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <dlfcn.h>
#include <sys/utsname.h>

/**
 * 库版本信息结构
 */
typedef struct {
    char name[64];
    char version[32];
    char filepath[256];
    void *handle;
    int is_loaded;
    unsigned long load_time;
} library_version_t;

/**
 * 版本管理器
 */
typedef struct {
    library_version_t libraries[16];
    int library_count;
    int max_libraries;
} version_manager_t;

/**
 * 初始化版本管理器
 */
int init_version_manager(version_manager_t *manager) {
    memset(manager, 0, sizeof(version_manager_t));
    manager->max_libraries = 16;
    manager->library_count = 0;
    
    printf("版本管理器初始化完成\n");
    printf("最大库数量: %d\n", manager->max_libraries);
    
    return 0;
}

/**
 * 添加库版本信息
 */
int add_library_version(version_manager_t *manager, 
                       const char *name, const char *version, const char *filepath) {
    if (manager->library_count >= manager->max_libraries) {
        printf("库数量已达上限\n");
        return -1;
    }
    
    library_version_t *lib = &manager->libraries[manager->library_count];
    
    strncpy(lib->name, name, sizeof(lib->name) - 1);
    lib->name[sizeof(lib->name) - 1] = '\0';
    
    strncpy(lib->version, version, sizeof(lib->version) - 1);
    lib->version[sizeof(lib->version) - 1] = '\0';
    
    strncpy(lib->filepath, filepath, sizeof(lib->filepath) - 1);
    lib->filepath[sizeof(lib->filepath) - 1] = '\0';
    
    lib->handle = NULL;
    lib->is_loaded = 0;
    lib->load_time = 0;
    
    manager->library_count++;
    
    printf("添加库版本信息:\n");
    printf("  名称: %s\n", lib->name);
    printf("  版本: %s\n", lib->version);
    printf("  路径: %s\n", lib->filepath);
    
    return 0;
}

/**
 * 显示系统库信息
 */
void show_system_library_info() {
    printf("=== 系统库信息 ===\n");
    
    // 显示系统信息
    struct utsname sys_info;
    if (uname(&sys_info) == 0) {
        printf("系统名称: %s\n", sys_info.sysname);
        printf("节点名称: %s\n", sys_info.nodename);
        printf("发行版本: %s\n", sys_info.release);
        printf("系统版本: %s\n", sys_info.version);
        printf("硬件架构: %s\n", sys_info.machine);
    }
    
    // 显示常见系统库
    printf("\n常见系统库路径:\n");
    
    const char *common_lib_paths[] = {
        "/lib/x86_64-linux-gnu/libc.so.6",
        "/lib/x86_64-linux-gnu/libm.so.6",
        "/lib/x86_64-linux-gnu/libdl.so.2",
        "/lib/x86_64-linux-gnu/librt.so.1",
        "/lib/x86_64-linux-gnu/libpthread.so.0",
        NULL
    };
    
    for (int i = 0; common_lib_paths[i]; i++) {
        struct stat st;
        if (stat(common_lib_paths[i], &st) == 0) {
            printf("  %s (存在)\n", common_lib_paths[i]);
        } else {
            printf("  %s (不存在)\n", common_lib_paths[i]);
        }
    }
}

/**
 * 演示版本管理
 */
int demo_version_management() {
    version_manager_t manager;
    
    printf("=== 动态库版本管理演示 ===\n");
    
    // 初始化版本管理器
    printf("1. 初始化版本管理器:\n");
    if (init_version_manager(&manager) != 0) {
        return -1;
    }
    
    // 显示系统信息
    printf("\n2. 系统库信息:\n");
    show_system_library_info();
    
    // 添加库版本信息
    printf("\n3. 添加库版本信息:\n");
    
    add_library_version(&manager, "libc", "2.31", "/lib/x86_64-linux-gnu/libc.so.6");
    add_library_version(&manager, "libm", "2.31", "/lib/x86_64-linux-gnu/libm.so.6");
    add_library_version(&manager, "libdl", "2.31", "/lib/x86_64-linux-gnu/libdl.so.2");
    add_library_version(&manager, "librt", "2.31", "/lib/x86_64-linux-gnu/librt.so.1");
    add_library_version(&manager, "libpthread", "2.31", "/lib/x86_64-linux-gnu/libpthread.so.0");
    
    // 显示所有库信息
    printf("\n4. 所有库版本信息:\n");
    printf("%-15s %-10s %-40s %-10s\n", "名称", "版本", "路径", "状态");
    printf("%-15s %-10s %-40s %-10s\n", "----", "----", "----", "----");
    
    for (int i = 0; i < manager.library_count; i++) {
        library_version_t *lib = &manager.libraries[i];
        printf("%-15s %-10s %-40s %-10s\n", 
               lib->name, lib->version, lib->filepath,
               lib->is_loaded ? "已加载" : "未加载");
    }
    
    // 演示版本比较
    printf("\n5. 版本比较演示:\n");
    
    struct {
        const char *version1;
        const char *version2;
        const char *description;
    } version_pairs[] = {
        {"2.31", "2.30", "向前兼容"},
        {"2.29", "2.31", "向后兼容检查"},
        {"3.0.0", "2.9.9", "大版本升级"},
        {"2.31.1", "2.31.0", "补丁版本"},
        {NULL, NULL, NULL}
    };
    
    for (int i = 0; version_pairs[i].version1; i++) {
        printf("  %s vs %s: %s\n", 
               version_pairs[i].version1, version_pairs[i].version2,
               version_pairs[i].description);
    }
    
    // 显示版本管理策略
    printf("\n=== 版本管理策略 ===\n");
    printf("1. 版本兼容性:\n");
    printf("   ✓ 主版本号变化：可能不兼容\n");
    printf("   ✓ 次版本号变化：向后兼容\n");
    printf("   ✓ 修订版本号变化：完全兼容\n");
    
    printf("\n2. 加载策略:\n");
    printf("   ✓ 优先加载最新兼容版本\n");
    printf("   ✓ 支持版本回退\n");
    printf("   ✓ 支持并行版本加载\n");
    printf("   ✓ 支持版本冲突解决\n");
    
    printf("\n3. 安全策略:\n");
    printf("   ✓ 版本签名验证\n");
    printf("   ✓ 依赖关系检查\n");
    printf("   ✓ 兼容性测试\n");
    printf("   ✓ 回滚机制\n");
    
    return 0;
}

int main() {
    return demo_version_management();
}

示例5：现代动态加载最佳实践

#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <dlfcn.h>
#include <sys/stat.h>
#include <time.h>

/**
 * 安全的动态加载器
 */
typedef struct {
    void *handle;
    char library_path[256];
    time_t load_time;
    int reference_count;
    int is_valid;
} secure_loader_t;

/**
 * 初始化安全加载器
 */
int init_secure_loader(secure_loader_t *loader, const char *library_path) {
    // 验证库文件
    struct stat st;
    if (stat(library_path, &st) != 0) {
        printf("库文件不存在: %s\n", library_path);
        return -1;
    }
    
    if (!S_ISREG(st.st_mode)) {
        printf("路径不是常规文件: %s\n", library_path);
        return -1;
    }
    
    // 检查文件权限
    if (!(st.st_mode & S_IRUSR)) {
        printf("没有读取权限: %s\n", library_path);
        return -1;
    }
    
    // 初始化加载器
    loader->handle = NULL;
    strncpy(loader->library_path, library_path, sizeof(loader->library_path) - 1);
    loader->library_path[sizeof(loader->library_path) - 1] = '\0';
    loader->load_time = 0;
    loader->reference_count = 0;
    loader->is_valid = 1;
    
    printf("安全加载器初始化:\n");
    printf("  库路径: %s\n", loader->library_path);
    printf("  文件大小: %ld 字节\n", st.st_size);
    printf("  修改时间: %s", ctime(&st.st_mtime));
    
    return 0;
}

/**
 * 安全加载库
 */
int secure_load_library(secure_loader_t *loader) {
    if (!loader->is_valid) {
        printf("加载器无效\n");
        return -1;
    }
    
    printf("安全加载库: %s\n", loader->library_path);
    
    // 使用RTLD_LAZY延迟加载
    loader->handle = dlopen(loader->library_path, RTLD_LAZY);
    if (!loader->handle) {
        printf("加载失败: %s\n", dlerror());
        return -1;
    }
    
    loader->load_time = time(NULL);
    loader->reference_count = 1;
    
    printf("  ✓ 加载成功\n");
    printf("  加载时间: %s", ctime(&loader->load_time));
    
    return 0;
}

/**
 * 获取符号地址
 */
void* secure_get_symbol(secure_loader_t *loader, const char *symbol_name) {
    if (!loader->handle) {
        printf("库未加载\n");
        return NULL;
    }
    
    void *symbol = dlsym(loader->handle, symbol_name);
    if (!symbol) {
        printf("符号未找到: %s (%s)\n", symbol_name, dlerror());
        return NULL;
    }
    
    printf("获取符号成功: %s -> %p\n", symbol_name, symbol);
    return symbol;
}

/**
 * 安全卸载库
 */
int secure_unload_library(secure_loader_t *loader) {
    if (!loader->handle) {
        printf("库未加载\n");
        return 0;
    }
    
    loader->reference_count--;
    if (loader->reference_count > 0) {
        printf("引用计数: %d，延迟卸载\n", loader->reference_count);
        return 0;
    }
    
    printf("卸载库: %s\n", loader->library_path);
    
    if (dlclose(loader->handle) != 0) {
        printf("卸载失败: %s\n", dlerror());
        return -1;
    }
    
    loader->handle = NULL;
    loader->load_time = 0;
    
    printf("  ✓ 卸载成功\n");
    return 0;
}

/**
 * 演示现代动态加载最佳实践
 */
int demo_modern_best_practices() {
    secure_loader_t loader;
    const char *system_lib = "/lib/x86_64-linux-gnu/libc.so.6";
    
    printf("=== 现代动态加载最佳实践演示 ===\n");
    
    // 1. 安全初始化
    printf("1. 安全初始化:\n");
    if (init_secure_loader(&loader, system_lib) != 0) {
        printf("安全加载器初始化失败\n");
        return -1;
    }
    
    // 2. 安全加载
    printf("\n2. 安全加载:\n");
    if (secure_load_library(&loader) != 0) {
        printf("安全加载失败\n");
        return -1;
    }
    
    // 3. 符号获取和使用
    printf("\n3. 符号获取和使用:\n");
    
    // 获取并使用malloc
    void* (*malloc_func)(size_t) = 
        (void* (*)(size_t))secure_get_symbol(&loader, "malloc");
    if (malloc_func) {
        printf("  测试malloc函数:\n");
        void *ptr = malloc_func(1024);
        if (ptr) {
            printf("    分配1024字节成功: %p\n", ptr);
            
            // 获取并使用free
            void (*free_func)(void*) = 
                (void (*)(void*))secure_get_symbol(&loader, "free");
            if (free_func) {
                free_func(ptr);
                printf("    释放内存成功\n");
            }
        }
    }
    
    // 获取并使用printf
    int (*printf_func)(const char*, ...) = 
        (int (*)(const char*, ...))secure_get_symbol(&loader, "printf");
    if (printf_func) {
        printf("  测试printf函数:\n");
        printf_func("    这是通过动态加载的printf输出\n");
    }
    
    // 4. 错误处理演示
    printf("\n4. 错误处理演示:\n");
    
    // 尝试获取不存在的符号
    void *nonexistent = secure_get_symbol(&loader, "nonexistent_function");
    if (!nonexistent) {
        printf("    ✓ 正确处理不存在的符号\n");
    }
    
    // 尝试加载不存在的库
    secure_loader_t bad_loader;
    if (init_secure_loader(&bad_loader, "/nonexistent/badlib.so") != 0) {
        printf("    ✓ 正确拒绝不存在的库文件\n");
    }
    
    // 5. 安全卸载
    printf("\n5. 安全卸载:\n");
    if (secure_unload_library(&loader) != 0) {
        printf("安全卸载失败\n");
        return -1;
    }
    
    printf("    ✓ 安全卸载完成\n");
    
    // 显示最佳实践总结
    printf("\n=== 现代动态加载最佳实践 ===\n");
    printf("1. 安全性最佳实践:\n");
    printf("   ✓ 文件完整性验证\n");
    printf("   ✓ 权限检查\n");
    printf("   ✓ 路径安全检查\n");
    printf("   ✓ 符号白名单\n");
    
    printf("\n2. 错误处理最佳实践:\n");
    printf("   ✓ 详细的错误信息\n");
    printf("   ✓ 优雅的降级处理\n");
    printf("   ✓ 资源清理\n");
    printf("   ✓ 日志记录\n");
    
    printf("\n3. 性能优化最佳实践:\n");
    printf("   ✓ 延迟加载\n");
    printf("   ✓ 引用计数\n");
    printf("   ✓ 缓存机制\n");
    printf("   ✓ 预加载策略\n");
    
    printf("\n4. 资源管理最佳实践:\n");
    printf("   ✓ 自动资源清理\n");
    printf("   ✓ 内存泄漏检测\n");
    printf("   ✓ 生命周期管理\n");
    printf("   ✓ 监控和统计\n");
    
    return 0;
}

int main() {
    return demo_modern_best_practices();
}

uselib 使用注意事项

历史背景：

早期Linux: 在早期Linux版本中用于动态加载共享库
现代状态: 在现代Linux系统中已被弃用
替代方案: 使用dlopen/dlsym等现代接口

系统要求：

内核版本: 早期支持uselib的Linux内核
权限要求: 通常需要适当的文件访问权限
架构支持: 历史上支持主流架构

安全考虑：

代码注入: 直接加载库文件可能存在安全风险
权限提升: 加载恶意库可能导致权限提升
内存安全: 直接内存操作可能影响系统稳定性

最佳实践：

使用现代接口: 优先使用dlopen/dlsym等现代动态加载接口
安全验证: 加载前验证库文件的完整性和来源
错误处理: 妥善处理加载和使用过程中的各种错误
资源管理: 及时释放加载的库资源

现代动态加载对比

uselib vs dlopen：

// uselib: 已过时的接口
uselib("/lib/libexample.so");

// dlopen: 现代标准接口
void *handle = dlopen("/lib/libexample.so", RTLD_LAZY);

功能对比：

特性	uselib	dlopen
符号获取	不支持	支持
错误处理	有限	完善
引用计数	无	支持
资源管理	手动	自动
安全性	较低	较高

常见使用场景

1. 插件系统：

// 动态加载插件库
void *plugin = dlopen("plugin.so", RTLD_LAZY);
if (plugin) {
    // 获取插件接口
    plugin_interface_t *interface = dlsym(plugin, "plugin_interface");
    // 使用插件功能
}

2. 模块化应用：

// 根据配置动态加载不同模块
void *module = dlopen(config.module_path, RTLD_LAZY);
// 实现模块化架构

3. 热插拔功能：

// 运行时加载和卸载功能模块
void *feature = dlopen("feature.so", RTLD_LAZY);
// 使用完毕后卸载
dlclose(feature);

总结

uselib 是Linux历史上用于动态加载共享库的系统调用，但在现代Linux系统中已被弃用。开发者应该使用更现代、更安全的动态加载接口如 dlopen/dlsym/dlclose。

现代动态加载提供了：

完整的功能: 支持符号查找、引用计数、错误处理
更好的安全性: 完善的安全检查和错误处理机制
标准兼容: 符合POSIX标准，跨平台支持
丰富的特性: 支持多种加载模式和灵活的配置选项

通过合理使用现代动态加载技术，可以构建灵活、安全、高效的模块化应用程序。

发表在 linux文章 | 留下评论

userfaultfd系统调用及示例

发表于2025-08-07由麦芽爸

好的，我们继续按照您的要求学习 Linux 系统编程中的重要函数。这次我们介绍 userfaultfd。

1. 函数介绍

userfaultfd (User Fault File Descriptor) 是一个 Linux 系统调用（内核版本 >= 4.3），它提供了一种机制，允许用户态程序处理发生在其他进程（或同一进程的其他线程）中的页面错误（Page Fault）。

简单来说，它让你可以：

监控一块内存区域。
当这块内存被访问（读/写）但尚未分配物理页或被换出时，内核会暂停访问该内存的进程/线程。
内核通过一个特殊的文件描述符（userfaultfd）通知你的用户态程序。
你的程序可以读取这个通知，了解到哪个进程、哪个地址发生了缺页。
然后，你的程序可以自行决定如何处理这个缺页：
- 从磁盘加载数据。
- 从网络获取数据。
- 生成所需的数据。
- 映射另一块已存在的内存。
- 返回错误。
最后，你的程序通过 ioctl 调用告诉内核：“我已经处理好了，让那个进程继续运行吧”。

你可以把它想象成一个智能的内存管家：

你告诉管家（userfaultfd）：“监控客厅（某块内存）”。
当孩子（另一个进程）跑进客厅玩耍（访问内存），但客厅还没收拾好（页面未分配/换出），孩子会被卡住。
管家会立刻通知你：“孩子卡在客厅了！”。
你收到通知后，赶紧去把客厅收拾好（准备数据）。
然后你告诉管家：“客厅搞定了，让孩子进去玩吧”。
孩子就能继续开心地玩耍了。

这使得实现惰性加载（Lazy Loading）、内存快照、用户态垃圾回收、分布式共享内存等高级功能成为可能。

2. 函数原型

#include <sys/syscall.h> // 因为 glibc 可能未包装，常需 syscall
#include <unistd.h>
#include <fcntl.h>       // O_CLOEXEC, O_NONBLOCK
#include <linux/userfaultfd.h> // 核心定义

// 注意：glibc 可能没有直接包装，需要 syscall 或使用 liburing 等库
// 系统调用号在 x86_64 上通常是 323 (SYS_userfaultfd)
int userfaultfd(int flags);

3. 功能

创建 UFFD: 创建一个新的 userfaultfd 对象，并返回一个与之关联的文件描述符。
设置监听: 后续需要使用 ioctl (UFFDIO_API, UFFDIO_REGISTER) 来配置这个 userfaultfd，告诉它要监听哪些内存区域以及监听哪些类型的页面错误。
接收通知: 其他进程访问被监听的内存区域时发生页面错误，内核会将错误信息通过这个文件描述符发送给用户态程序。
处理错误: 用户态程序读取错误信息，进行处理，并通过 ioctl (UFFDIO_COPY, UFFDIO_ZEROPAGE, UFFDIO_WAKE) 等操作来解决页面错误，使被阻塞的进程恢复运行。

4. 参数

int flags: 控制 userfaultfd 行为的标志。可以是以下值的按位或组合：
- 0: 默认行为。
- O_CLOEXEC: 在调用 exec() 时自动关闭该文件描述符。这是个好习惯，防止意外传递给新程序。
- O_NONBLOCK: 使 userfaultfd 文件描述符变为非阻塞模式。对 userfaultfd 本身的读写操作（读取事件）会受到影响。

5. 返回值

成功时: 返回一个新的 userfaultfd 文件描述符（一个非负整数）。
失败时: 返回 -1，并设置全局变量 errno 来指示具体的错误原因（例如 EINVAL flags 无效，EMFILE 进程打开的文件描述符已达上限，ENOSYS 内核不支持 userfaultfd 等）。

6. 相似函数，或关联函数

mmap: 用于分配和映射内存区域，这些区域后续可以用 userfaultfd 来监控。
ioctl: 用于配置 userfaultfd（注册内存区域、处理页面错误）和与其交互的主要方式。
poll / select / epoll: 用于等待 userfaultfd 文件描述符变为可读（有事件到来）。
read: 用于从 userfaultfd 文件描述符读取页面错误事件。
fork / pthread: userfaultfd 通常与多进程或多线程结合使用，一个线程/进程负责监控和处理错误，其他线程/进程进行内存访问。

7. 示例代码

重要提示: userfaultfd 的使用非常复杂，涉及多线程/多进程、ioctl 操作、内存管理等。下面的示例是一个极度简化的概念演示，展示了核心流程。

示例 1：基本的 `userfaultfd` 设置和事件读取（概念性）

// userfaultfd_concept.c
#define _GNU_SOURCE
#include <sys/syscall.h>
#include <sys/mman.h>
#include <fcntl.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <errno.h>
#include <string.h>
#include <poll.h>
#include <linux/userfaultfd.h>
#include <sys/ioctl.h>

// 简化系统调用包装
static inline int sys_userfaultfd(int flags) {
    return syscall(__NR_userfaultfd, flags);
}

int main() {
    int uffd;
    struct uffdio_api api;
    struct uffdio_register reg;
    char *page;
    long page_size = sysconf(_SC_PAGESIZE);
    struct pollfd pollfd;
    struct uffd_msg msg;
    ssize_t nread;

    printf("Page size: %ld bytes\n", page_size);

    // 1. 检查内核支持
    printf("Checking for userfaultfd support...\n");
    uffd = sys_userfaultfd(O_CLOEXEC | O_NONBLOCK);
    if (uffd == -1) {
        if (errno == ENOSYS) {
            printf("userfaultfd is NOT supported on this kernel (need >= 4.3).\n");
        } else {
            perror("userfaultfd");
        }
        exit(EXIT_FAILURE);
    }
    printf("userfaultfd supported. File descriptor: %d\n", uffd);

    // 2. 启用 API (必须步骤)
    printf("\nEnabling UFFD API...\n");
    api.api = UFFD_API;
    api.features = 0; // 不请求任何额外特性
    if (ioctl(uffd, UFFDIO_API, &api) == -1) {
        perror("ioctl UFFDIO_API");
        close(uffd);
        exit(EXIT_FAILURE);
    }
    if (api.api != UFFD_API) {
        fprintf(stderr, "UFFD API version mismatch.\n");
        close(uffd);
        exit(EXIT_FAILURE);
    }
    printf("UFFD API enabled successfully.\n");

    // 3. 分配并映射内存
    printf("\nAllocating memory using mmap...\n");
    page = mmap(NULL, page_size, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);
    if (page == MAP_FAILED) {
        perror("mmap");
        close(uffd);
        exit(EXIT_FAILURE);
    }
    printf("Memory mapped at %p (size: %ld bytes)\n", (void*)page, page_size);

    // 4. 注册内存区域到 userfaultfd
    printf("\nRegistering memory region with userfaultfd...\n");
    reg.range.start = (unsigned long) page;
    reg.range.len = page_size;
    reg.mode = UFFDIO_REGISTER_MODE_MISSING; // 监听缺页错误
    if (ioctl(uffd, UFFDIO_REGISTER, &reg) == -1) {
        perror("ioctl UFFDIO_REGISTER");
        munmap(page, page_size);
        close(uffd);
        exit(EXIT_FAILURE);
    }
    printf("Memory region registered successfully.\n");

    // 5. 触发缺页错误 (在另一个线程/进程中通常发生)
    printf("\nTriggering a page fault by accessing the memory...\n");
    printf("  Accessing address %p...\n", (void*)page);
    *page = 'X'; // 这会触发缺页错误，并被 uffd 捕获
    printf("  Successfully wrote 'X' to %p.\n", (void*)page);

    // 6. 等待并读取事件 (通常在专用线程中)
    printf("\nPolling userfaultfd for events...\n");
    pollfd.fd = uffd;
    pollfd.events = POLLIN;
    int poll_res = poll(&pollfd, 1, 1000); // 1秒超时
    if (poll_res > 0 && (pollfd.revents & POLLIN)) {
        printf("Event detected on uffd.\n");
        nread = read(uffd, &msg, sizeof(msg));
        if (nread > 0) {
            if (msg.event == UFFD_EVENT_PAGEFAULT) {
                printf("  Received PAGEFAULT event:\n");
                printf("    Address: %p\n", (void*)msg.arg.pagefault.address);
                printf("    Flags: 0x%llx\n", (unsigned long long)msg.arg.pagefault.flags);
                if (msg.arg.pagefault.flags & UFFD_PAGEFAULT_FLAG_WRITE) {
                    printf("    (Fault was caused by a WRITE access)\n");
                } else {
                    printf("    (Fault was caused by a READ access)\n");
                }

                // --- 关键: 处理缺页错误 ---
                printf("\n--- Resolving page fault ---\n");
                struct uffdio_zeropage zeropage;
                zeropage.range.start = msg.arg.pagefault.address & ~(page_size - 1); // 对齐到页
                zeropage.range.len = page_size;
                zeropage.mode = 0;
                if (ioctl(uffd, UFFDIO_ZEROPAGE, &zeropage) == -1) {
                    perror("ioctl UFFDIO_ZEROPAGE");
                } else {
                    printf("  Page zeroed and resolved successfully.\n");
                    printf("  The faulting process/thread should now resume.\n");
                }
            } else {
                printf("  Received unexpected event type: %d\n", msg.event);
            }
        } else if (nread == 0) {
            printf("  Read 0 bytes from uffd (unexpected).\n");
        } else {
            perror("read from uffd");
        }
    } else if (poll_res == 0) {
        printf("  Timeout: No event received on uffd within 1 second.\n");
        printf("  (This might be because the page was already handled by the kernel\n");
        printf("   or the access didn't trigger a monitored fault.)\n");
    } else {
        perror("poll uffd");
    }

    // 7. 清理
    printf("\nCleaning up...\n");
    if (munmap(page, page_size) == -1) {
        perror("munmap");
    }
    if (close(uffd) == -1) {
        perror("close uffd");
    }
    printf("Cleanup completed.\n");

    return 0;
}

**代码解释 **(概念性):

定义 sys_userfaultfd 包装 syscall，因为 glibc 可能未直接提供。
调用 sys_userfaultfd(O_CLOEXEC | O_NONBLOCK) 创建 userfaultfd。
关键: 调用 ioctl(uffd, UFFDIO_API, &api) 启用 userfaultfd API。这是必需的初始化步骤。
使用 mmap 分配一个匿名私有内存页。
关键: 调用 ioctl(uffd, UFFDIO_REGISTER, &reg) 将 mmap 分配的内存区域注册到 userfaultfd 进行监控。UFFDIO_REGISTER_MODE_MISSING 表示监听缺页错误。
触发缺页: 程序直接访问 page 指向的内存。对于匿名私有映射，首次访问会触发内核分配一个“零页”并映射，这通常不会被 userfaultfd 捕获，因为内核自己处理了。为了让 userfaultfd 生效，通常需要更复杂的设置（如 mmap 一个未实际分配物理页的区域，或在另一个进程中访问）。
等待事件: 使用 poll 等待 userfaultfd 文件描述符变为可读。
读取事件: 如果 poll 检测到事件，调用 read(uffd, &msg, sizeof(msg)) 读取 struct uffd_msg。
检查事件类型: 检查 msg.event 是否为 UFFD_EVENT_PAGEFAULT。
处理事件: 打印缺页的地址和访问类型（读/写）。
关键: 调用 ioctl(uffd, UFFDIO_ZEROPAGE, &zeropage) 来解决缺页错误。这里使用 UFFDIO_ZEROPAGE 将缺页的地址范围映射为一个全零页。
清理资源。

注意: 这个例子为了简化，直接在主线程中触发并处理缺页，这在实际中可能不会按预期工作，因为内核通常会自己处理匿名页的首次分配。userfaultfd 的威力在于跨进程或更复杂的惰性加载场景。

重要提示与注意事项:

内核版本: 需要 Linux 内核 4.3 或更高版本。
glibc 支持: 标准 glibc 可能没有包装 userfaultfd，需要使用 syscall。
权限: 通常需要特殊权限（如 CAP_SYS_PTRACE）才能对其他进程使用 userfaultfd。同一进程内使用通常不需要。
复杂性: userfaultfd 的完整使用非常复杂，涉及多线程、事件循环、复杂的 ioctl 操作（如 UFFDIO_COPY 从用户态缓冲区复制数据到缺页地址）。
性能: 虽然功能强大，但处理页面错误涉及用户态和内核态的多次交互，可能带来开销。
应用场景: 主要用于实现高级内存管理功能，如用户态分页、惰性加载文件、内存快照、分布式内存等。

总结:

userfaultfd 是一个强大而独特的 Linux 系统调用，它将传统的、由内核全权处理的页面错误处理机制，部分地移交给了用户态程序。这为实现创新的内存管理和虚拟化技术提供了前所未有的灵活性和控制力。虽然使用起来相当复杂，但它是现代 Linux 系统编程中一个极具价值的工具。

发表在 linux文章 | 留下评论

ustat 系统调用及示例

发表于2025-08-07由麦芽爸

好的，我们来深入学习 ustat 系统调用

1. 函数介绍

ustat (Unix Status) 是一个非常古老的 Unix 系统调用，它的作用是获取已挂载文件系统的信息，特别是文件系统根节点（即设备）的一些基本统计信息，比如总空闲块数、总空闲 inode 数等。

你可以把它想象成一个远古版本的、功能非常有限的 statfs。在早期的 Unix 系统中，它被用来快速查看某个设备（代表一个文件系统）的健康状况和容量。

然而，对于现代的 Linux 系统（特别是基于 glibc 的系统），ustat 已经被弃用 (deprecated) 了。

简单来说，ustat 是一个过时的、不推荐在现代 Linux 编程中使用的系统调用。

ustat 系统调用及示例

为什么被弃用？

功能有限：它提供的信息远不如现代的 statfs 或 statvfs 丰富和准确。
设计陈旧：它基于设备号 (dev_t) 工作，而现代文件系统和挂载方式（如网络文件系统 NFS、伪文件系统 tmpfs 等）使得仅通过设备号获取信息变得不准确或不可能。
更好的替代品：statfs (或 POSIX 标准的 statvfs) 提供了更全面、更标准化的文件系统信息查询接口。

2. 函数原型

#include <ustat.h> // 包含 ustat 函数声明和 struct ustat

// 注意：在许多现代 Linux 系统上，这个头文件可能不存在或不推荐使用
int ustat(dev_t dev, struct ustat *ubuf);

3. 功能

获取指定设备号 (dev) 对应的文件系统的基本状态信息，并将结果存储在 ubuf 指向的 struct ustat 结构体中。

4. 参数

dev:
- dev_t 类型。
- 指定要查询的文件系统的设备号。设备号通常可以通过 stat() 系统调用获取文件或目录的 st_dev 字段来得到。
ubuf:
- struct ustat * 类型。
- 一个指向 struct ustat 结构体的指针。函数调用成功后，会将查询到的信息填充到这个结构体中。

5. `struct ustat` 结构体

// 这是 ustat.h 中定义的结构（概念性）
struct ustat {
    daddr_t f_tfree;  /* Total free blocks */
    ino_t   f_tinode; /* Number of free inodes */
    char    f_fname[6]; /* Filsys name, optional */
    char    f_fpack[6]; /* Filsys pack name, optional */
};

f_tfree: 文件系统中总的空闲块数。
f_tinode: 文件系统中总的空闲 inode 数。
f_fname 和 f_fpack: 可选的文件系统名称和卷标，但通常不被现代文件系统支持。

6. 返回值

成功: 返回 0。
失败: 返回 -1，并设置全局变量 errno 来指示具体的错误原因。

7. 错误码 (`errno`)

EINVAL: dev 参数无效。
ENOSYS: 系统不支持 ustat 系统调用（在现代 Linux 上很常见）。

8. 相似函数或关联函数 (现代替代品)

statfs / fstatfs: 现代 Linux 中用于获取文件系统统计信息的标准系统调用。功能更强大，信息更丰富。
statvfs / fstatvfs: POSIX 标准定义的函数，与 statfs 功能类似，具有更好的可移植性。
stat: 获取文件或目录的状态信息，包括其所在的设备号 (st_dev)。

9. 为什么不推荐使用 `ustat` 以及现代替代方案

ustat 已经过时且不推荐使用。现代 Linux 编程应使用 statfs 或 statvfs。

现代替代方案示例 (`statfs`)

#define _GNU_SOURCE // 启用 GNU 扩展
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/vfs.h>    // 包含 statfs
#include <sys/stat.h>   // 包含 stat
#include <string.h>
#include <errno.h>

int main() {
    struct statfs sfs;
    struct stat statbuf;
    const char *path = "/"; // 查询根文件系统

    printf("--- Demonstrating modern alternative to ustat: statfs ---\n");

    // 方法 1: 使用 statfs 直接查询路径
    printf("1. Querying filesystem info for path '%s' using statfs():\n", path);
    if (statfs(path, &sfs) == 0) {
        printf("  Filesystem Type (Magic): 0x%lx\n", (unsigned long)sfs.f_type);
        printf("  Block Size:              %ld bytes\n", (long)sfs.f_bsize);
        printf("  Total Blocks:            %ld\n", (long)sfs.f_blocks);
        printf("  Free Blocks:             %ld\n", (long)sfs.f_bfree);
        printf("  Available Blocks:        %ld (for non-root users)\n", (long)sfs.f_bavail);
        printf("  Total Inodes:            %ld\n", (long)sfs.f_files);
        printf("  Free Inodes:             %ld\n", (long)sfs.f_ffree);
        printf("  Filesystem ID:           %d:%d\n", (int)sfs.f_fsid.__val[0], (int)sfs.f_fsid.__val[1]);
    } else {
        perror("statfs");
        exit(EXIT_FAILURE);
    }

    // 方法 2: 先用 stat 获取设备号，再用 statfs 查询 (模拟 ustat 的思路，但用 statfs)
    printf("\n2. Getting device number with stat() and querying with statfs():\n");
    if (stat(path, &statbuf) == 0) {
        printf("  Device ID for '%s': %ld\n", path, (long)statbuf.st_dev);
        // 注意：没有直接的 "statfs_by_dev" 函数。
        // 我们仍然需要一个路径。现代方法是直接用路径查询。
        // 如果真的需要基于设备号查询，需要遍历 /proc/mounts 等找到挂载点。
        // 这正是 ustat 设计上的局限性。
        printf("  Note: Modern statfs works with paths, not device IDs directly.\n");
        printf("        This is more robust than the old ustat approach.\n");
    } else {
        perror("stat");
    }

    printf("\n--- Summary ---\n");
    printf("1. ustat is obsolete and deprecated on modern Linux systems.\n");
    printf("2. Use statfs() or statvfs() instead for querying filesystem information.\n");
    printf("3. These modern functions provide more details and work correctly with all filesystem types.\n");

    return 0;
}

10. 编译和运行 (现代替代方案)

# 假设代码保存在 modern_statfs_example.c 中
gcc -o modern_statfs_example modern_statfs_example.c

# 运行程序
./modern_statfs_example

11. 预期输出 (现代替代方案)

--- Demonstrating modern alternative to ustat: statfs ---
1. Querying filesystem info for path '/' using statfs():
  Filesystem Type (Magic): 0xef53
  Block Size:              4096 bytes
  Total Blocks:            123456789
  Free Blocks:             56789012
  Available Blocks:        50000000 (for non-root users)
  Total Inodes:            30000000
  Free Inodes:             25000000
  Filesystem ID:           12345:67890

2. Getting device number with stat() and querying with statfs():
  Device ID for '/': 64768
  Note: Modern statfs works with paths, not device IDs directly.
        This is more robust than the old ustat approach.

--- Summary ---
1. ustat is obsolete and deprecated on modern Linux systems.
2. Use statfs() or statvfs() instead for querying filesystem information.
3. These modern functions provide more details and work correctly with all filesystem types.

12. 总结

ustat 是一个历史遗留的、已被弃用的系统调用。

历史作用：在早期 Unix 系统中用于查询文件系统基本信息。
为何弃用：
- 功能有限且不准确。
- 基于设备号的设计不适用于现代复杂文件系统。
现代替代品：
- statfs(path, &buf): 通过路径查询文件系统信息（推荐）。
- statvfs(path, &buf): POSIX 标准接口，可移植性更好。
给 Linux 编程小白的建议：完全不需要学习 ustat。从一开始就应该学习和使用 statfs 或 statvfs 来获取文件系统信息。

发表在 linux文章 | 留下评论

utimensat和futimens 系统调用及示例

发表于2025-08-07由麦芽爸

好的，我们来深入学习 utimensat 和 futimens 系统调用

1. 函数介绍

在 Linux 系统中，每个文件都关联着一些重要的时间属性：

访问时间 (atime): 文件上一次被读取的时间。
修改时间 (mtime): 文件内容上一次被修改的时间。
状态改变时间 (ctime): 文件的元数据（如权限、所有者、链接数等）上一次被改变的时间。

我们之前学过 utimes 可以用来修改 atime 和 mtime。utimensat 和 futimens 是更现代、更强大的系统调用，用于完成相同的任务。

utimensat 和 futimens 的核心优势：

纳秒级精度：它们使用 struct timespec，可以精确到纳秒（虽然底层文件系统可能不支持这么高的精度，但接口提供了）。
更灵活的控制：它们引入了特殊的标记，允许你精确控制对每个时间戳的操作：
- 设置为当前时间。
- 保持不变。
- 设置为指定时间。
更灵活的路径解析：utimensat 可以像 openat 一样，相对于一个目录文件描述符解析路径，并且可以选择是否跟随符号链接。

简单来说，utimensat 和 futimens 是 utimes 的“升级版”，提供了更高的精度和更灵活的操作方式。

2. 函数原型

#include <fcntl.h>      // 包含 AT_FDCWD 等常量
#include <sys/stat.h>   // 包含 utimensat, futimens 函数声明和 timespec 结构体

// 通过路径名设置时间戳 (更灵活)
int utimensat(int dirfd, const char *pathname, const struct timespec times[2], int flags);

// 通过文件描述符设置时间戳
int futimens(int fd, const struct timespec times[2]);

3. 功能

两者都用于设置文件的访问时间 (atime) 和修改时间 (mtime)。

utimensat: 通过路径名指定文件，并提供额外的灵活性（相对路径解析、符号链接处理）。
futimens: 通过已打开的文件描述符 (fd) 指定文件。

4. 参数详解

`futimens(int fd, const struct timespec times[2])`

fd:
- int 类型。
- 一个指向目标文件的已打开文件描述符。
times:
- const struct timespec times[2] 类型。
- 一个包含两个 struct timespec 元素的数组。
- times[0] 指定了新的访问时间 (atime)。
- times[1] 指定了新的修改时间 (mtime)。
- 特殊值:
  - 如果 times[0] 或 times[1] 的 tv_nsec 字段是 UTIME_NOW，则相应的时间戳会被设置为调用时的当前时间。
  - 如果 times[0] 或 times[1] 的 tv_nsec 字段是 UTIME_OMIT，则相应的时间戳将保持不变。
  - 否则，时间戳将被设置为 tv_sec 和 tv_nsec 指定的值。

`utimensat(int dirfd, const char *pathname, const struct timespec times[2], int flags)`

dirfd:
- int 类型。
- 一个目录文件描述符，用作 pathname 的基础路径。
- 如果 pathname 是绝对路径，则 dirfd 被忽略。
- 特殊值 AT_FDCWD 表示使用当前工作目录作为基础路径。
pathname:
- const char * 类型。
- 指向要修改时间戳的文件的路径名（可以是相对路径或绝对路径）。
times:
- const struct timespec times[2] 类型。
- 含义与 futimens 相同。
flags:
- int 类型。
- 用于修改 utimensat 行为的标志。目前主要支持一个标志：
  - AT_SYMLINK_NOFOLLOW: 如果 pathname 是一个符号链接，则修改符号链接本身的时间戳，而不是它指向的目标文件的时间戳。如果未设置此标志（默认），则会跟随符号链接。

struct timespec 结构体:

struct timespec {
    time_t tv_sec;  /* 秒数 (自 Unix 纪元以来) */
    long   tv_nsec; /* 纳秒数 (0-999,999,999) */
};

5. 返回值

两者返回值相同：

成功: 返回 0。
失败: 返回 -1，并设置全局变量 errno 来指示具体的错误原因。

6. 错误码 (`errno`)

两者共享许多相同的错误码：

EACCES: 搜索 pathname 的路径组件时权限不足，或者没有写权限。
EBADF: (对于 futimens) fd 不是有效的文件描述符。
EBADF: (对于 utimensat) dirfd 不是有效的文件描述符，且不等于 AT_FDCWD。
EFAULT: pathname 或 times 指向了调用进程无法访问的内存地址。
EINVAL: times 数组中的时间值无效（例如，纳秒数超出范围或 flags 无效）。
EIO: I/O 错误。
ELOOP: 解析 pathname 时遇到符号链接循环。
ENAMETOOLONG: pathname 太长。
ENOENT: pathname 指定的文件或目录不存在。
ENOMEM: 内核内存不足。
ENOTDIR: (对于 utimensat) pathname 的某个前缀不是目录，或者 dirfd 是一个文件描述符但不是目录。
EPERM: times 中指定的时间早于文件的 ctime 和 mtime，且调用进程不拥有该文件（某些文件系统会阻止将时间戳设置得比 ctime/mtime 更早）。
EROFS: 文件系统是只读的。

7. 相似函数或关联函数

utimes: 旧版函数，使用 struct timeval（微秒精度）。
utime: 更老的函数，使用 struct utimbuf（秒精度）。
lutimes: 旧版函数，用于修改符号链接本身的时间戳。
stat / lstat: 用于获取文件的当前时间戳。

8. 示例代码

下面的示例演示了如何使用 utimensat 和 futimens 来修改文件时间戳，并展示它们的灵活性。

#define _GNU_SOURCE // 启用 GNU 扩展
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>      // 包含 open, O_* flags, AT_FDCWD, AT_SYMLINK_NOFOLLOW
#include <sys/stat.h>   // 包含 utimensat, futimens, timespec, stat
#include <string.h>
#include <errno.h>
#include <time.h>       // 包含 time, localtime, strftime

// 辅助函数：打印文件的时间信息
void print_file_times(const char *filename) {
    struct stat sb;
    if (stat(filename, &sb) == -1) {
        perror("stat");
        return;
    }

    printf("File: %s\n", filename);
    printf("  Last Status Change (ctime): %s", ctime(&sb.st_ctime)); // ctime 包含换行符
    printf("  Last Modification (mtime):  %s", ctime(&sb.st_mtime));
    printf("  Last Access (atime):        %s", ctime(&sb.st_atime));
    printf("\n");
}

// 辅助函数：创建一个测试文件
void create_test_file(const char *filename) {
    FILE *f = fopen(filename, "w");
    if (!f) {
        perror("fopen");
        exit(EXIT_FAILURE);
    }
    fprintf(f, "This is a test file for utimensat/futimens example.\n");
    fclose(f);
    printf("Created test file: %s\n\n", filename);
}

int main() {
    const char *test_file = "utimensat_test_file.txt";
    const char *test_symlink = "utimensat_test_symlink.txt";
    struct timespec new_times[2];
    time_t fixed_time_sec;
    struct tm tm_tmp;

    printf("--- Demonstrating utimensat and futimens ---\n");

    // 1. 创建一个测试文件
    create_test_file(test_file);

    // 2. 创建一个指向测试文件的符号链接
    if (symlink(test_file, test_symlink) == -1) {
        perror("symlink");
        unlink(test_file);
        exit(EXIT_FAILURE);
    }
    printf("Created symlink: %s -> %s\n\n", test_symlink, test_file);

    // 3. 显示初始时间
    printf("1. Initial timestamps:\n");
    print_file_times(test_file);
    print_file_times(test_symlink); // 符号链接的时间通常和目标文件一样（除非文件系统特殊支持）

    // 4. 准备一个固定的时间
    printf("2. Preparing fixed time...\n");
    memset(&tm_tmp, 0, sizeof(tm_tmp));
    tm_tmp.tm_year = 2023 - 1900; // tm_year is years since 1900
    tm_tmp.tm_mon = 10 - 1;       // tm_mon is 0-11
    tm_tmp.tm_mday = 27;
    tm_tmp.tm_hour = 10;
    tm_tmp.tm_min = 0;
    tm_tmp.tm_sec = 0;
    tm_tmp.tm_isdst = 0;
    fixed_time_sec = timegm(&tm_tmp);
    if (fixed_time_sec == -1) {
        perror("timegm");
        unlink(test_file);
        unlink(test_symlink);
        exit(EXIT_FAILURE);
    }

    // 5. 使用 futimens 设置时间
    printf("3. --- Using futimens() ---\n");
    int fd = open(test_file, O_RDONLY);
    if (fd == -1) {
        perror("open test_file");
        unlink(test_file);
        unlink(test_symlink);
        exit(EXIT_FAILURE);
    }

    new_times[0].tv_sec = fixed_time_sec; // atime
    new_times[0].tv_nsec = 123456789;     // atime 纳秒
    new_times[1].tv_sec = fixed_time_sec; // mtime
    new_times[1].tv_nsec = 987654321;     // mtime 纳秒

    printf("Setting timestamps using futimens()...\n");
    if (futimens(fd, new_times) == -1) {
        perror("futimens");
    } else {
        printf("futimens() succeeded.\n");
    }
    close(fd);
    printf("Timestamps after futimens:\n");
    print_file_times(test_file);

    // 6. 使用 utimensat 设置时间 (相对路径)
    printf("4. --- Using utimensat() with relative path ---\n");
    // 等待几秒，让时间不同
    sleep(2);

    // 将 atime 设置为当前时间，mtime 保持不变
    new_times[0].tv_sec = 0;        // 无关紧要
    new_times[0].tv_nsec = UTIME_NOW; // 设置为当前时间
    new_times[1].tv_sec = 0;        // 无关紧要
    new_times[1].tv_nsec = UTIME_OMIT; // 保持 mtime 不变

    printf("Setting atime to NOW and mtime to OMIT using utimensat(AT_FDCWD, ...)...\n");
    // AT_FDCWD 表示相对于当前工作目录解析路径
    if (utimensat(AT_FDCWD, test_file, new_times, 0) == -1) {
        perror("utimensat");
    } else {
        printf("utimensat() succeeded.\n");
    }
    printf("Timestamps after utimensat (atime updated, mtime unchanged):\n");
    print_file_times(test_file);

    // 7. 使用 utimensat 处理符号链接
    printf("5. --- Using utimensat() with symlinks ---\n");
    // 准备新的时间
    new_times[0].tv_sec = fixed_time_sec + 3600; // atime + 1 小时
    new_times[0].tv_nsec = 111111111;
    new_times[1].tv_sec = fixed_time_sec + 7200; // mtime + 2 小时
    new_times[1].tv_nsec = 222222222;

    // 默认情况下，utimensat 会跟随符号链接，修改目标文件
    printf("Calling utimensat() on symlink WITHOUT AT_SYMLINK_NOFOLLOW...\n");
    printf("  This will modify the TARGET file's timestamps.\n");
    if (utimensat(AT_FDCWD, test_symlink, new_times, 0) == -1) {
        perror("utimensat (follow symlink)");
    } else {
        printf("utimensat() succeeded (followed symlink).\n");
    }
    printf("Target file timestamps after utimensat (followed symlink):\n");
    print_file_times(test_file);
    printf("Symlink file timestamps (should be unchanged or linked):\n");
    print_file_times(test_symlink);

    // 现在使用 AT_SYMLINK_NOFOLLOW 来修改符号链接本身
    new_times[0].tv_sec = fixed_time_sec + 10800; // atime + 3 小时
    new_times[0].tv_nsec = 333333333;
    new_times[1].tv_sec = fixed_time_sec + 14400; // mtime + 4 小时
    new_times[1].tv_nsec = 444444444;

    printf("\nCalling utimensat() on symlink WITH AT_SYMLINK_NOFOLLOW...\n");
    printf("  This will modify the SYMLINK's timestamps (if filesystem supports it).\n");
    if (utimensat(AT_FDCWD, test_symlink, new_times, AT_SYMLINK_NOFOLLOW) == -1) {
        if (errno == EOPNOTSUPP) {
            printf("utimensat with AT_SYMLINK_NOFOLLOW failed: %s\n", strerror(errno));
            printf("  This is expected on many filesystems (e.g., ext4).\n");
        } else {
            perror("utimensat (nofollow symlink)");
        }
    } else {
        printf("utimensat() succeeded (modified symlink itself).\n");
        print_file_times(test_symlink);
    }

    // 8. 清理
    printf("\n6. --- Cleaning up ---\n");
    if (unlink(test_file) == 0) {
        printf("Deleted test file '%s'.\n", test_file);
    } else {
        perror("unlink test_file");
    }
    if (unlink(test_symlink) == 0) {
        printf("Deleted symlink '%s'.\n", test_symlink);
    } else {
        perror("unlink test_symlink");
    }

    printf("\n--- Summary ---\n");
    printf("1. futimens(fd, times[2]): Sets atime/mtime for a file via its file descriptor.\n");
    printf("2. utimensat(dirfd, pathname, times[2], flags): Sets atime/mtime via pathname, with more options.\n");
    printf("3. Both use struct timespec, providing nanosecond precision.\n");
    printf("4. Special timespec values:\n");
    printf("   - tv_nsec = UTIME_NOW:  Set timestamp to current time.\n");
    printf("   - tv_nsec = UTIME_OMIT: Leave timestamp unchanged.\n");
    printf("5. utimensat flags:\n");
    printf("   - 0 (default): Follow symlinks.\n");
    printf("   - AT_SYMLINK_NOFOLLOW: Modify symlink itself (filesystem support varies).\n");
    printf("   - dirfd allows relative path resolution (like openat).\n");
    printf("6. These are the modern, preferred functions for changing file timestamps.\n");

    return 0;
}

9. 编译和运行

# 假设代码保存在 utimensat_futimens_example.c 中
gcc -o utimensat_futimens_example utimensat_futimens_example.c

# 运行程序
./utimensat_futimens_example

10. 预期输出 (片段)

--- Demonstrating utimensat and futimens ---
Created test file: utimensat_test_file.txt

Created symlink: utimensat_test_symlink.txt -> utimensat_test_file.txt

1. Initial timestamps:
File: utimensat_test_file.txt
  Last Status Change (ctime): Fri Oct 27 11:00:00 2023
  Last Modification (mtime):  Fri Oct 27 11:00:00 2023
  Last Access (atime):        Fri Oct 27 11:00:00 2023

File: utimensat_test_symlink.txt
  Last Status Change (ctime): Fri Oct 27 11:00:00 2023
  Last Modification (mtime):  Fri Oct 27 11:00:00 2023
  Last Access (atime):        Fri Oct 27 11:00:00 2023

2. Preparing fixed time...
3. --- Using futimens() ---
Setting timestamps using futimens()...
futimens() succeeded.
Timestamps after futimens:
File: utimensat_test_file.txt
  Last Status Change (ctime): Fri Oct 27 11:00:00 2023
  Last Modification (mtime):  Fri Oct 27 10:00:00 2023
  Last Access (atime):        Fri Oct 27 10:00:00 2023

4. --- Using utimensat() with relative path ---
Setting atime to NOW and mtime to OMIT using utimensat(AT_FDCWD, ...)...
utimensat() succeeded.
Timestamps after utimensat (atime updated, mtime unchanged):
File: utimensat_test_file.txt
  Last Status Change (ctime): Fri Oct 27 11:00:02 2023
  Last Modification (mtime):  Fri Oct 27 10:00:00 2023
  Last Access (atime):        Fri Oct 27 11:00:02 2023

5. --- Using utimensat() with symlinks ---
Calling utimensat() on symlink WITHOUT AT_SYMLINK_NOFOLLOW...
  This will modify the TARGET file's timestamps.
utimensat() succeeded (followed symlink).
Target file timestamps after utimensat (followed symlink):
File: utimensat_test_file.txt
  Last Status Change (ctime): Fri Oct 27 11:00:02 2023
  Last Modification (mtime):  Fri Oct 27 12:00:00 2023
  Last Access (atime):        Fri Oct 27 11:00:00 2023
Symlink file timestamps (should be unchanged or linked):
File: utimensat_test_symlink.txt
  ... (same as target) ...

Calling utimensat() on symlink WITH AT_SYMLINK_NOFOLLOW...
  This will modify the SYMLINK's timestamps (if filesystem supports it).
utimensat with AT_SYMLINK_NOFOLLOW failed: Operation not supported
  This is expected on many filesystems (e.g., ext4).

6. --- Cleaning up ---
Deleted test file 'utimensat_test_file.txt'.
Deleted symlink 'utimensat_test_symlink.txt'.

--- Summary ---
1. futimens(fd, times[2]): Sets atime/mtime for a file via its file descriptor.
2. utimensat(dirfd, pathname, times[2], flags): Sets atime/mtime via pathname, with more options.
3. Both use struct timespec, providing nanosecond precision.
4. Special timespec values:
   - tv_nsec = UTIME_NOW:  Set timestamp to current time.
   - tv_nsec = UTIME_OMIT: Leave timestamp unchanged.
5. utimensat flags:
   - 0 (default): Follow symlinks.
   - AT_SYMLINK_NOFOLLOW: Modify symlink itself (filesystem support varies).
   - dirfd allows relative path resolution (like openat).
6. These are the modern, preferred functions for changing file timestamps.

11. 总结

utimensat 和 futimens 是 Linux 中用于修改文件时间戳的现代、强大的系统调用。

核心优势：
- 高精度：纳秒级时间戳设置。
- 灵活控制：通过 UTIME_NOW 和 UTIME_OMIT 精确控制每个时间戳的行为。
- 路径灵活性：utimensat 支持相对路径解析和符号链接处理。
futimens：通过已打开的文件描述符操作，简单直接。
utimensat：功能更全，可以处理相对路径、绝对路径，并控制符号链接行为。
与旧函数对比：
- 比 utimes (微秒) 和 utime (秒) 精度更高。
- 比 lutimes 功能更强大（lutimes 只是 utimensat 的一个特例）。
给 Linux 编程小白的建议：在需要修改文件时间戳的新代码中，优先使用 utimensat 或 futimens。它们是当前的标准，功能强大且设计良好。

发表在 linux文章 | 留下评论

utimes系统调用及示例

发表于2025-08-07由麦芽爸

好的，我们来深入学习 utimes 系统调用

1. 函数介绍

在 Linux 系统中，每个文件都关联着一些重要的时间属性：

访问时间 (atime): 文件上一次被读取的时间。
修改时间 (mtime): 文件内容上一次被修改的时间。
状态改变时间 (ctime): 文件的元数据（如权限、所有者、链接数等）上一次被改变的时间。

这些时间戳对于系统管理、备份策略、审计日志等非常重要。

utimes (Update Times) 系统调用的作用就是手动设置一个文件的访问时间 (atime) 和 修改时间 (mtime)。

简单来说，utimes 就是让你用程序来“篡改”一个文件的“上次访问时间”和“上次修改时间”。

你可能会问，为什么要手动修改这些时间呢？常见的场景有：

文件同步工具：在同步文件时，可能需要确保目标文件的时间戳与源文件完全一致。
备份和归档：某些备份工具可能需要调整文件时间戳以匹配备份时的状态。
测试：编写测试程序时，可能需要模拟文件在特定时间点被访问或修改。
修复：如果因为某些原因文件的时间戳不正确，可以手动修正。

2. 函数原型

#include <sys/time.h> // 包含 utimes 函数声明和 timeval 结构体

int utimes(const char *filename, const struct timeval times[2]);

3. 功能

设置由 filename 指定的文件的访问时间 (atime) 和修改时间 (mtime)。

4. 参数

filename:
- const char * 类型。
- 指向一个以 null 结尾的字符串，表示要修改时间戳的文件的路径名。
times:
- const struct timeval times[2] 类型。
- 一个包含两个 struct timeval 元素的数组。
- times[0] 指定了新的访问时间 (atime)。
- times[1] 指定了新的修改时间 (mtime)。
- 如果 times 指针为 NULL，则 utimes 会将 atime 和 mtime 都设置为当前时间。

struct timeval 结构体:

struct timeval {
    time_t      tv_sec;     /* 秒数 (自 Unix 纪元以来) */
    suseconds_t tv_usec;    /* 微秒数 (0-999999) */
};

5. 返回值

成功: 返回 0。
失败: 返回 -1，并设置全局变量 errno 来指示具体的错误原因。

6. 错误码 (`errno`)

EACCES: 搜索 filename 的路径组件时权限不足，或者没有写权限（因为修改时间戳通常需要写权限）。
EFAULT: filename 或 times 指向了调用进程无法访问的内存地址。
EINVAL: times 数组中的时间值无效（例如，微秒数超出范围）。
EIO: I/O 错误。
ELOOP: 解析 filename 时遇到符号链接循环。
ENAMETOOLONG: filename 太长。
ENOENT: filename 指定的文件或目录不存在。
ENOMEM: 内核内存不足。
ENOTDIR: filename 的某个前缀不是目录。
EPERM: 系统调用被阻止（例如，由 seccomp 或安全模块）。
EROFS: filename 所在的文件系统是只读的。

7. 相似函数或关联函数

utime: 一个更老的、功能类似的函数。它使用 struct utimbuf，精度只到秒。utimes 是 utime 的微秒精度版本。#include <utime.h> struct utimbuf { time_t actime; /* 访问时间 */ time_t modtime; /* 修改时间 */ }; int utime(const char *filename, const struct utimbuf *times);
lutimes: 与 utimes 类似，但如果 filename 是一个符号链接，它会修改符号链接本身的 atime 和 mtime，而不是它指向的目标文件。
futimes: 与 utimes 类似，但它通过已打开的文件描述符 (fd) 来指定文件，而不是文件路径。int futimes(int fd, const struct timeval tv[2]);
futimens / utimensat: 更现代的系统调用，使用 struct timespec，提供纳秒级精度，并且有更多选项（如 UTIME_OMIT, UTIME_NOW）。这些是推荐在新代码中使用的。#include <fcntl.h> // 包含 AT_FDCWD 等 #include <sys/stat.h> // 包含 timespec, UTIME_* 常量 int futimens(int fd, const struct timespec times[2]); int utimensat(int dirfd, const char *pathname, const struct timespec times[2], int flags);

8. 示例代码

下面的示例演示了如何使用 utimes 来修改文件的时间戳，并与其他相关函数进行比较。

#define _GNU_SOURCE // 启用 GNU 扩展
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/time.h>   // 包含 utimes, timeval
#include <sys/stat.h>   // 包含 stat, timespec
#include <utime.h>      // 包含 utime, utimbuf
#include <fcntl.h>      // 包含 open, O_* flags
#include <string.h>
#include <errno.h>
#include <time.h>       // 包含 time, localtime, strftime

// 辅助函数：打印文件的时间信息
void print_file_times(const char *filename) {
    struct stat sb;
    if (stat(filename, &sb) == -1) {
        perror("stat");
        return;
    }

    printf("File: %s\n", filename);
    // 使用 ctime 将 time_t 转换为可读字符串
    printf("  Last Status Change (ctime): %s", ctime(&sb.st_ctime)); // ctime 包含换行符
    printf("  Last Modification (mtime):  %s", ctime(&sb.st_mtime));
    printf("  Last Access (atime):        %s", ctime(&sb.st_atime));
    printf("\n");
}

// 辅助函数：创建一个测试文件
void create_test_file(const char *filename) {
    FILE *f = fopen(filename, "w");
    if (!f) {
        perror("fopen");
        exit(EXIT_FAILURE);
    }
    fprintf(f, "This is a test file for utimes example.\n");
    fclose(f);
    printf("Created test file: %s\n\n", filename);
}

int main() {
    const char *test_file = "utimes_test_file.txt";
    struct timeval new_times[2];
    time_t fixed_time_sec;
    struct tm tm_tmp;

    printf("--- Demonstrating utimes ---\n");

    // 1. 创建一个测试文件
    create_test_file(test_file);

    // 2. 显示初始时间
    printf("1. Initial timestamps:\n");
    print_file_times(test_file);

    // 3. 使用 utimes 将 atime 和 mtime 设置为固定时间
    printf("2. Setting timestamps to a fixed time using utimes()...\n");
    // 设置一个固定的日期时间：例如 2023-10-27 10:00:00 UTC
    memset(&tm_tmp, 0, sizeof(tm_tmp));
    tm_tmp.tm_year = 2023 - 1900; // tm_year is years since 1900
    tm_tmp.tm_mon = 10 - 1;       // tm_mon is 0-11
    tm_tmp.tm_mday = 27;
    tm_tmp.tm_hour = 10;
    tm_tmp.tm_min = 0;
    tm_tmp.tm_sec = 0;
    tm_tmp.tm_isdst = 0; // Not daylight saving time
    fixed_time_sec = timegm(&tm_tmp); // Convert to time_t (UTC)
    if (fixed_time_sec == -1) {
        perror("timegm");
        unlink(test_file);
        exit(EXIT_FAILURE);
    }

    new_times[0].tv_sec = fixed_time_sec; // atime
    new_times[0].tv_usec = 123456;        // atime 微秒
    new_times[1].tv_sec = fixed_time_sec; // mtime
    new_times[1].tv_usec = 654321;        // mtime 微秒

    if (utimes(test_file, new_times) == -1) {
        perror("utimes");
        unlink(test_file);
        exit(EXIT_FAILURE);
    }
    printf("Set atime to %s", ctime(&fixed_time_sec)); // ctime adds newline
    printf("Set mtime to %s", ctime(&fixed_time_sec));
    printf("Note: Microseconds are set but not displayed by ctime.\n\n");

    printf("3. Timestamps after utimes (fixed time):\n");
    print_file_times(test_file);

    // 4. 使用 utimes(NULL) 将时间设置为当前时间
    printf("4. Setting timestamps to CURRENT time using utimes(NULL)...\n");
    sleep(3); // 等待几秒，确保当前时间不同
    if (utimes(test_file, NULL) == -1) {
        perror("utimes(NULL)");
        unlink(test_file);
        exit(EXIT_FAILURE);
    }
    printf("Timestamps updated to current time.\n\n");

    printf("5. Timestamps after utimes(NULL):\n");
    print_file_times(test_file);

    // 6. 比较 utime (旧版，秒级精度)
    printf("6. --- Comparing with older utime() ---\n");
    struct utimbuf old_times;
    old_times.actime = fixed_time_sec;  // 访问时间
    old_times.modtime = fixed_time_sec; // 修改时间
    printf("Setting timestamps back to fixed time using utime() (second precision)...\n");
    if (utime(test_file, &old_times) == -1) {
        perror("utime");
    } else {
        printf("utime() succeeded.\n");
        print_file_times(test_file);
        printf("Note: atime and mtime are now at second precision.\n\n");
    }

    // 7. 比较 futimes (通过文件描述符)
    printf("7. --- Comparing with futimes() ---\n");
    int fd = open(test_file, O_RDONLY);
    if (fd == -1) {
        perror("open");
    } else {
        new_times[0].tv_sec = fixed_time_sec + 3600; // atime + 1 小时
        new_times[0].tv_usec = 0;
        new_times[1].tv_sec = fixed_time_sec + 7200; // mtime + 2 小时
        new_times[1].tv_usec = 0;
        printf("Setting timestamps using futimes() via file descriptor...\n");
        if (futimes(fd, new_times) == -1) {
            perror("futimes");
        } else {
            printf("futimes() succeeded.\n");
            print_file_times(test_file);
        }
        close(fd);
    }

    // 8. 清理
    printf("8. --- Cleaning up ---\n");
    if (unlink(test_file) == 0) {
        printf("Deleted test file '%s'.\n", test_file);
    } else {
        perror("unlink");
    }

    printf("\n--- Summary ---\n");
    printf("1. utimes(filename, times[2]): Sets atime and mtime for a file via its path.\n");
    printf("2. Precision is up to microseconds (tv_usec).\n");
    printf("3. If times is NULL, both atime and mtime are set to the current time.\n");
    printf("4. Related functions:\n");
    printf("   - utime(): Older, second-precision version.\n");
    printf("   - lutimes(): Modifies symlink itself, not target.\n");
    printf("   - futimes(): Modifies file via file descriptor.\n");
    printf("   - futimens() / utimensat(): Modern, nanosecond-precision, more flexible (recommended).\n");

    return 0;
}

9. 编译和运行

# 假设代码保存在 utimes_example.c 中
gcc -o utimes_example utimes_example.c

# 运行程序
./utimes_example

10. 预期输出

--- Demonstrating utimes ---
Created test file: utimes_test_file.txt

1. Initial timestamps:
File: utimes_test_file.txt
  Last Status Change (ctime): Fri Oct 27 11:00:00 2023
  Last Modification (mtime):  Fri Oct 27 11:00:00 2023
  Last Access (atime):        Fri Oct 27 11:00:00 2023

2. Setting timestamps to a fixed time using utimes()...
Set atime to Fri Oct 27 10:00:00 2023
Set mtime to Fri Oct 27 10:00:00 2023
Note: Microseconds are set but not displayed by ctime.

3. Timestamps after utimes (fixed time):
File: utimes_test_file.txt
  Last Status Change (ctime): Fri Oct 27 11:00:00 2023
  Last Modification (mtime):  Fri Oct 27 10:00:00 2023
  Last Access (atime):        Fri Oct 27 10:00:00 2023

4. Setting timestamps to CURRENT time using utimes(NULL)...
Timestamps updated to current time.

5. Timestamps after utimes(NULL):
File: utimes_test_file.txt
  Last Status Change (ctime): Fri Oct 27 11:00:03 2023
  Last Modification (mtime):  Fri Oct 27 11:00:03 2023
  Last Access (atime):        Fri Oct 27 11:00:03 2023

6. --- Comparing with older utime() ---
Setting timestamps back to fixed time using utime() (second precision)...
utime() succeeded.
File: utimes_test_file.txt
  Last Status Change (ctime): Fri Oct 27 11:00:03 2023
  Last Modification (mtime):  Fri Oct 27 10:00:00 2023
  Last Access (atime):        Fri Oct 27 10:00:00 2023
Note: atime and mtime are now at second precision.

7. --- Comparing with futimes() ---
Setting timestamps using futimes() via file descriptor...
futimes() succeeded.
File: utimes_test_file.txt
  Last Status Change (ctime): Fri Oct 27 11:00:03 2023
  Last Modification (mtime):  Fri Oct 27 12:00:00 2023
  Last Access (atime):        Fri Oct 27 11:00:00 2023

8. --- Cleaning up ---
Deleted test file 'utimes_test_file.txt'.

--- Summary ---
1. utimes(filename, times[2]): Sets atime and mtime for a file via its path.
2. Precision is up to microseconds (tv_usec).
3. If times is NULL, both atime and mtime are set to the current time.
4. Related functions:
   - utime(): Older, second-precision version.
   - lutimes(): Modifies symlink itself, not target.
   - futimes(): Modifies file via file descriptor.
   - futimens() / utimensat(): Modern, nanosecond-precision, more flexible (recommended).

11. 总结

utimes 是一个用于修改文件访问时间和修改时间的系统调用。

核心功能：精确设置文件的 atime 和 mtime（微秒级）。
参数：文件路径和包含两个 timeval 结构的数组。
特殊用法：传入 NULL 可将时间设置为当前时间。
相关函数：
- utime: 更老的秒级精度版本。
- lutimes: 修改符号链接本身的时间。
- futimes: 通过文件描述符修改时间。
- futimens / utimensat: 现代推荐的函数，提供纳秒精度和更多控制选项。
使用场景：文件同步、备份、测试、时间戳修复。
给 Linux 编程小白的建议：虽然 utimes 很有用，但在编写新代码时，考虑使用更新、更强大的 utimensat 或 futimens，因为它们提供了更好的精度和灵活性。

发表在 linux文章 | 留下评论

vfork系统调用及示例

发表于2025-08-07由麦芽爸

在 fork 之后，根据您提供的列表，下一个函数是 vfork。

1. 函数介绍

vfork 是一个历史悠久的 Linux/Unix 系统调用，它的设计目的是为了优化 fork 在特定场景下的性能。vfork 的行为与 fork 非常相似，但也存在关键的区别。

核心思想:

当一个进程调用 fork 后，最常见的操作是在子进程中立即调用 exec 系列函数来执行一个全新的程序。在标准的 fork 实现中，内核会完整地复制父进程的地址空间（页表、内存页等）给子进程。但是，如果子进程紧接着就调用 exec，这些刚复制的内存很快就会被新程序的内存镜像完全覆盖，那么这次复制操作就是浪费的。

vfork 就是为了解决这个“先 fork 再 exec”的常见模式下的性能浪费问题。

你可以把 vfork 想象成借用自己的身体来打电话：

你（父进程）需要让别人（子进程）去隔壁房间打一个重要的电话（exec）。
用 fork 就像你复制了一个自己的身体（克隆人），然后让克隆人去隔壁打电话。但克隆人刚出门，你就把他的身体销毁了，因为用完就没了。
用 vfork 就像你暂时把自己的身体借给那个人，让他去隔壁打电话。在打电话的这段时间（从 vfork 返回到 exec 或 _exit 被调用），你（父进程）必须一动不动地等着，因为你把身体借出去了。
一旦那个人打完电话（调用 exec 或 _exit），你的身体就回来了，你可以继续做自己的事。

2. 函数原型

#include <unistd.h> // 必需

pid_t vfork(void);

3. 功能

创建新进程: 与 fork 类似，vfork 也用于创建一个新的子进程。
共享地址空间: 与 fork 不同，vfork 创建的子进程暂时与父进程共享相同的地址空间（内存、栈等）。这意味着子进程对内存的任何修改在父进程中都是可见的。
挂起父进程: 调用 vfork 后，父进程会被挂起（暂停执行），直到子进程调用 exec 系列函数或 _exit 为止。
子进程限制: 在子进程中，从 vfork 返回到调用 exec 或 _exit 之间，只能执行这两个操作或修改局部变量后直接返回。执行任何其他操作（如修改全局变量、调用可能修改内存的库函数、返回到 vfork 调用之前的函数栈帧）都可能导致未定义行为。

4. 参数

void: vfork 函数不接受任何参数。

5. 返回值

vfork 的返回值语义与 fork 完全相同：

在父进程中:
- 成功: 返回新创建**子进程的进程 ID **(PID)。
- 失败: 返回 -1，并设置 errno。
在子进程中:
- 成功: 返回 0。
**失败时 **(父进程)
- 返回 -1，且没有子进程被创建。

6. 相似函数，或关联函数

fork: vfork 的“兄弟”。vfork 是 fork 的一个变种，旨在优化“fork-then-exec”模式。
clone: Linux 特有的底层系统调用。vfork 在底层可以通过特定的 clone 标志 (CLONE_VFORK | CLONE_VM) 来实现。
exec 系列函数: vfork 通常与 exec 系列函数结合使用。
_exit: 子进程在 vfork 后通常调用 _exit 来终止，而不是 exit。

7. 示例代码

示例 1：基本的 `vfork` + `exec` 使用

这个例子演示了 vfork 最经典和推荐的用法：创建子进程并立即执行新程序。

// vfork_exec.c
#include <unistd.h>   // vfork, _exit
#include <sys/wait.h> // wait
#include <stdio.h>    // printf, perror
#include <stdlib.h>   // exit

int global_var = 100; // 全局变量，用于演示共享地址空间

int main() {
    pid_t pid;
    int local_var = 200; // 局部变量

    printf("Before vfork: Parent PID: %d\n", getpid());
    printf("  Global var: %d, Local var: %d\n", global_var, local_var);

    // --- 关键: 调用 vfork ---
    pid = vfork();

    if (pid == -1) {
        // vfork 失败
        perror("vfork failed");
        exit(EXIT_FAILURE);

    } else if (pid == 0) {
        // --- 子进程 ---
        printf("Child process (PID: %d) created by vfork.\n", getpid());

        // 在 vfork 的子进程中，修改局部变量通常是安全的
        // （只要不返回到 vfork 之前的栈帧）
        local_var = 250;
        printf("  Child modified local var to: %d\n", local_var);

        // 修改全局变量也是可以的，但这会影响父进程看到的值
        // 这只是为了演示共享内存，实际使用中要非常小心
        global_var = 150;
        printf("  Child modified global var to: %d\n", global_var);

        // --- 关键: 子进程必须立即调用 exec 或 _exit ---
        printf("  Child is about to exec 'echo'.\n");

        // 准备 execv 所需的参数
        char *args[] = { "echo", "Hello from exec'd process!", NULL };

        // 调用 execv 执行新的程序
        execv("/bin/echo", args);

        // --- 如果代码执行到这里，说明 execv 失败了 ---
        perror("execv failed in child");
        // 在 vfork 的子进程中，失败时必须使用 _exit，而不是 exit
        _exit(EXIT_FAILURE);

    } else {
        // --- 父进程 ---
        // vfork 会挂起父进程，直到子进程调用 exec 或 _exit
        printf("Parent process (PID: %d) resumed after child's exec.\n", getpid());

        // 父进程现在可以安全地访问自己的变量了
        // 注意：由于子进程修改了 global_var，在 exec 之前，
        // 父进程看到的 global_var 值可能已经被改变了
        // （但这依赖于具体实现和时机，不应依赖此行为）
        printf("  Parent sees global var as: %d (may be modified by child)\n", global_var);
        printf("  Parent sees local var as: %d (should be unchanged)\n", local_var);

        // 等待子进程结束 (子进程 exec 后变成了新的程序，最终会退出)
        int status;
        if (wait(&status) == -1) {
            perror("wait failed");
            exit(EXIT_FAILURE);
        }

        if (WIFEXITED(status)) {
            int exit_code = WEXITSTATUS(status);
            printf("Parent: Child (new process) exited with status %d.\n", exit_code);
        } else {
            printf("Parent: Child (new process) did not exit normally.\n");
        }

        printf("Parent process (PID: %d) finished.\n", getpid());
    }

    return 0;
}

代码解释:

定义了一个全局变量 global_var 和一个局部变量 local_var。
调用 pid = vfork();。
在子进程中 (pid == 0):
- 打印信息。
- 修改局部变量 local_var（这通常被认为是安全的）。
- 修改全局变量 global_var（这是为了演示地址空间共享，但实际编程中非常危险且不推荐）。
- 关键: 准备 execv 的参数并立即调用 execv("/bin/echo", args)。
- 如果 execv 失败，调用 _exit(EXIT_FAILURE) 退出。强调: 在 vfork 子进程中，失败时必须使用 _exit，而不是 exit。
在父进程中 (pid > 0):
- 程序执行到这里时，意味着子进程已经调用了 exec 或 _exit，父进程被恢复执行。
- 打印信息，并检查变量的值。
  - local_var 应该没有变化。
  - global_var 的值是不确定的，因为子进程可能修改了它。这展示了共享地址空间的风险。
- 调用 wait 等待子进程（现在是 echo 程序）结束。
- 打印子进程的退出状态。
- 父进程结束。

示例 2：演示 `vfork` 子进程中的危险操作

这个例子（仅供演示，请勿模仿！）展示了在 vfork 子进程中执行不当操作可能导致的问题。

// vfork_danger.c
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>

int global_counter = 0;

// 一个简单的函数
void dangerous_function() {
    global_counter++; // 修改全局变量
    printf("Dangerous function called, global_counter: %d\n", global_counter);
    // 如果这个函数还调用了其他库函数，或者有复杂的返回路径，
    // 在 vfork 子进程中调用它会非常危险。
}

int main() {
    pid_t pid;

    printf("Parent PID: %d, Global counter: %d\n", getpid(), global_counter);

    pid = vfork();

    if (pid == -1) {
        perror("vfork failed");
        exit(EXIT_FAILURE);
    } else if (pid == 0) {
        // --- vfork 子进程 ---
        printf("Child PID: %d\n", getpid());

        // --- 危险操作 1: 调用非 async-signal-safe 的函数 ---
        // printf 通常被认为是安全的，但更复杂的函数可能不是。
        // dangerous_function(); // 取消注释这行可能会导致问题

        // --- 危险操作 2: 从 vfork 子进程中返回 ---
        // return 0; // 这是非常危险的！绝对不要这样做！
        // 从 vfork 子进程中返回会导致返回到父进程的栈帧，
        // 而父进程的栈可能已经被子进程修改或破坏。

        // --- 危险操作 3: 修改复杂的数据结构 ---
        // 任何涉及 malloc/free, stdio buffers, 等的操作都可能不安全。

        // 正确的做法：只调用 exec 或 _exit
        // 为了演示，我们在这里直接 _exit
        printf("Child is exiting via _exit().\n");
        _exit(EXIT_SUCCESS);

    } else {
        // --- 父进程 ---
        // 父进程在这里恢复
        printf("Parent PID: %d resumed. Global counter: %d\n", getpid(), global_counter);

        // 简单等待，实际程序中应使用 wait
        sleep(1);
        printf("Parent finished.\n");
    }

    return 0;
}

代码解释:

该示例旨在说明在 vfork 子进程中的限制。
dangerous_function 是一个示例函数，它修改全局变量并调用 printf。
代码注释中指出了几种在 vfork 子进程中不应该做的事情：
- 调用复杂的库函数。
- 从子进程函数中返回（return）。
- 修改复杂的数据结构。
强调了在 vfork 子进程中只应执行 exec 或 _exit。

重要提示与注意事项:

已过时/不推荐: 在现代 Linux 编程中，vfork通常被认为是过时的，并且不推荐使用。原因如下：
- 复杂且易出错: 子进程的行为受到严格限制，很容易因违反规则而导致程序崩溃或数据损坏。
- 优化不再显著: 现代操作系统的 fork 实现（利用写时复制 Copy-On-Write, COW 技术）已经非常高效。当 fork 后立即 exec 时，内核几乎不需要复制任何实际的物理内存页，因为 exec 会立即替换整个地址空间。因此，vfork 带来的性能提升非常有限。
- 更安全的替代方案: posix_spawn() 是一个更现代、更安全、更可移植的创建并执行新进程的方式，它旨在提供 fork + exec 的功能，同时避免 vfork 的陷阱。
vfork vs fork + COW:
- 传统的 fork 确实会复制页表。
- 但是现代的 fork 实现使用写时复制（COW）。这意味着 fork 调用本身很快，因为它只复制页表，而物理内存页在父子进程之间是共享的。只有当任一进程尝试修改某页时，内核才会复制该页。如果子进程紧接着调用 exec，那么大部分（甚至全部）页面都无需复制。
- 因此，vfork 的性能优势在现代系统上已经大大减弱。
严格的使用规则: 如果你必须使用 vfork（例如，为了兼容非常老的系统或特殊需求），必须严格遵守其规则：
- 子进程只能调用 exec 或 _exit。
- 子进程不能修改除局部变量外的任何数据。
- 子进程不能返回到 vfork 调用之前的任何函数栈帧。
- 子进程不能调用任何非异步信号安全（async-signal-safe）的函数（除了 exec 和 _exit）。
_exit vs exit: 与 fork 子进程一样，在 vfork 子进程中，如果需要终止，应使用 _exit() 而不是 exit()。
可移植性: vfork 不是 POSIX 标准的一部分，尽管在很多类 Unix 系统上都可用。fork 和 posix_spawn 具有更好的可移植性。

总结:

vfork 是一个为特定场景（fork 后立即 exec）优化的系统调用。它通过让父子进程共享地址空间并挂起父进程来避免内存复制的开销。然而，由于其使用规则极其严格且容易出错，加上现代 fork 实现（COW）已经非常高效，vfork 在现代编程实践中已基本被弃用。推荐使用 fork + exec 或更现代的 posix_spawn 来创建和执行新进程。理解 vfork 的原理和历史意义仍然重要，但应避免在新代码中使用它。

发表在 linux文章 | 留下评论

vmsplice系统调用及示例

发表于2025-08-07由麦芽爸

vmsplice函数详解

1. 函数介绍

vmsplice函数是Linux系统中用于高效地将用户空间缓冲区数据传输到管道的函数。它是splice系列函数的一部分，专门用于从用户空间向管道传输数据。可以把vmsplice想象成一个”高速数据管道注入器”，它能够将内存中的数据块直接传输到管道中，而无需传统的数据拷贝操作。

vmsplice的主要优势在于它提供了零拷贝或最小拷贝的数据传输机制，通过将用户空间的内存页直接映射到内核空间，大大提高了数据传输的效率。这在需要大量数据传输的高性能应用中特别有用。

使用场景：

高性能网络服务器的数据传输
大数据处理和流处理应用
实时系统的数据管道
避免内存拷贝的高效数据传输
管道和套接字之间的数据传输

2. 函数原型

#define _GNU_SOURCE
#include <fcntl.h>
#include <sys/uio.h>

ssize_t vmsplice(int fd, const struct iovec *iov, unsigned long nr_segs, unsigned int flags);

3. 功能

vmsplice函数的主要功能是将用户空间缓冲区的数据高效地传输到管道中。它支持多种传输模式和选项，可以优化不同场景下的数据传输性能。

4. 参数

fd: 管道文件描述符
- 类型：int
- 含义：目标管道的写端文件描述符
iov: 输入输出向量数组
- 类型：const struct iovec*
- 含义：描述要传输的数据缓冲区的向量数组
- 结构体定义：struct iovec { void *iov_base; // 缓冲区起始地址 size_t iov_len; // 缓冲区长度 };
nr_segs: 向量数组元素个数
- 类型：unsigned long
- 含义：iov数组中有效元素的个数
flags: 操作标志
- 类型：unsigned int
- 含义：控制传输行为的标志位
- 常用值：
  - SPLICE_F_MOVE：尽可能移动页面而不是复制
  - SPLICE_F_NONBLOCK：非阻塞操作
  - SPLICE_F_MORE：提示还有更多数据要写入
  - SPLICE_F_GIFT：页面是礼品（传输后内核拥有页面）

5. 返回值

成功: 返回实际传输的字节数
失败: 返回-1，并设置errno错误码
- EAGAIN：非阻塞模式下无法立即完成
- EBADF：无效的文件描述符
- EINVAL：参数无效
- ENOMEM：内存不足
- EPIPE：管道已关闭读端

6. 相似函数或关联函数

splice(): 在文件描述符之间传输数据
tee(): 在管道之间复制数据
write(): 传统的数据写入函数
writev(): 向量写入函数
mmap(): 内存映射函数
sendfile(): 文件到套接字的高效传输

7. 示例代码

示例1：基础vmsplice使用 – 简单数据传输

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/uio.h>
#include <string.h>
#include <errno.h>

// 创建管道
int create_pipe(int pipefd[2]) {
    if (pipe(pipefd) == -1) {
        perror("创建管道失败");
        return -1;
    }
    printf("创建管道: 读端=%d, 写端=%d\n", pipefd[0], pipefd[1]);
    return 0;
}

// 使用vmsplice传输数据
ssize_t send_data_with_vmsplice(int pipe_write_fd, const char* data, size_t data_len) {
    struct iovec iov;
    iov.iov_base = (void*)data;
    iov.iov_len = data_len;
    
    ssize_t result = vmsplice(pipe_write_fd, &iov, 1, SPLICE_F_MOVE);
    if (result == -1) {
        perror("vmsplice传输失败");
    } else {
        printf("vmsplice传输成功: %zd 字节\n", result);
    }
    
    return result;
}

// 从管道接收数据
ssize_t receive_data_from_pipe(int pipe_read_fd, char* buffer, size_t buffer_size) {
    ssize_t bytes_read = read(pipe_read_fd, buffer, buffer_size - 1);
    if (bytes_read > 0) {
        buffer[bytes_read] = '\0';
        printf("从管道读取: %zd 字节\n", bytes_read);
    } else if (bytes_read == -1) {
        perror("从管道读取失败");
    }
    
    return bytes_read;
}

int main() {
    printf("=== 基础vmsplice使用示例 ===\n");
    
    int pipefd[2];
    
    // 创建管道
    if (create_pipe(pipefd) == -1) {
        exit(EXIT_FAILURE);
    }
    
    // 准备测试数据
    const char* test_data = "这是使用vmsplice传输的测试数据";
    size_t data_len = strlen(test_data);
    
    printf("1. 准备传输数据:\n");
    printf("   数据内容: %s\n", test_data);
    printf("   数据长度: %zu 字节\n", data_len);
    
    // 使用vmsplice传输数据
    printf("\n2. 使用vmsplice传输数据:\n");
    ssize_t bytes_sent = send_data_with_vmsplice(pipefd[1], test_data, data_len);
    
    if (bytes_sent > 0) {
        // 从管道接收数据
        printf("\n3. 从管道接收数据:\n");
        char receive_buffer[256];
        ssize_t bytes_received = receive_data_from_pipe(pipefd[0], receive_buffer, sizeof(receive_buffer));
        
        if (bytes_received > 0) {
            printf("   接收内容: %s\n", receive_buffer);
            printf("   验证结果: %s\n", 
                   strcmp(test_data, receive_buffer) == 0 ? "✓ 数据一致" : "✗ 数据不一致");
        }
    }
    
    // 演示向量传输
    printf("\n4. 演示向量传输:\n");
    
    // 准备多个数据段
    const char* segments[] = {
        "第一段数据",
        "第二段数据",
        "第三段数据"
    };
    
    size_t segment_count = sizeof(segments) / sizeof(segments[0]);
    struct iovec iov[segment_count];
    
    // 初始化向量数组
    for (size_t i = 0; i < segment_count; i++) {
        iov[i].iov_base = (void*)segments[i];
        iov[i].iov_len = strlen(segments[i]);
        printf("   段 %zu: %s (%zu 字节)\n", i + 1, segments[i], strlen(segments[i]));
    }
    
    // 使用vmsplice传输多个段
    ssize_t vector_result = vmsplice(pipefd[1], iov, segment_count, SPLICE_F_MOVE);
    if (vector_result == -1) {
        perror("向量传输失败");
    } else {
        printf("   向量传输成功: %zd 字节\n", vector_result);
        
        // 接收并验证数据
        char vector_buffer[256];
        ssize_t total_received = 0;
        printf("   接收数据:\n");
        
        while (total_received < vector_result) {
            ssize_t bytes_read = read(pipefd[0], vector_buffer + total_received, 
                                    sizeof(vector_buffer) - total_received - 1);
            if (bytes_read > 0) {
                total_received += bytes_read;
            } else if (bytes_read == 0) {
                break;  // 管道已关闭
            } else {
                perror("读取数据失败");
                break;
            }
        }
        
        if (total_received > 0) {
            vector_buffer[total_received] = '\0';
            printf("   接收内容: %s\n", vector_buffer);
        }
    }
    
    // 演示错误处理
    printf("\n5. 错误处理演示:\n");
    
    // 使用无效的文件描述符
    struct iovec invalid_iov = {(void*)"test", 4};
    ssize_t error_result = vmsplice(999, &invalid_iov, 1, 0);
    if (error_result == -1) {
        printf("   使用无效fd: %s (预期错误)\n", strerror(errno));
    }
    
    // 使用空向量
    error_result = vmsplice(pipefd[1], NULL, 0, 0);
    if (error_result == -1) {
        printf("   使用空向量: %s (预期错误)\n", strerror(errno));
    }
    
    // 清理资源
    printf("\n6. 清理资源:\n");
    close(pipefd[0]);
    close(pipefd[1]);
    printf("   管道已关闭\n");
    
    printf("\n=== 基础vmsplice演示完成 ===\n");
    
    return 0;
}

示例2：高性能数据管道应用

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/uio.h>
#include <sys/wait.h>
#include <string.h>
#include <errno.h>
#include <time.h>

#define BUFFER_SIZE 4096
#define NUM_BUFFERS 100

// 生产者进程 - 使用vmsplice发送数据
void producer_process(int pipe_write_fd) {
    printf("生产者进程启动 (PID: %d)\n", getpid());
    
    // 准备数据缓冲区
    char** buffers = malloc(NUM_BUFFERS * sizeof(char*));
    if (!buffers) {
        perror("分配缓冲区失败");
        exit(EXIT_FAILURE);
    }
    
    // 初始化缓冲区
    for (int i = 0; i < NUM_BUFFERS; i++) {
        buffers[i] = malloc(BUFFER_SIZE);
        if (!buffers[i]) {
            perror("分配缓冲区失败");
            exit(EXIT_FAILURE);
        }
        
        // 填充缓冲区内容
        snprintf(buffers[i], BUFFER_SIZE, 
                 "生产者数据包 %d - 时间戳: %ld", i + 1, time(NULL));
    }
    
    struct iovec iov;
    int total_sent = 0;
    
    // 发送数据包
    for (int i = 0; i < NUM_BUFFERS; i++) {
        iov.iov_base = buffers[i];
        iov.iov_len = strlen(buffers[i]) + 1;  // 包括字符串结束符
        
        // 使用vmsplice发送数据
        ssize_t bytes_sent = vmsplice(pipe_write_fd, &iov, 1, 
                                     SPLICE_F_MOVE | SPLICE_F_MORE);
        
        if (bytes_sent == -1) {
            if (errno == EAGAIN) {
                printf("生产者: 管道满，等待...\n");
                usleep(1000);  // 等待1毫秒后重试
                i--;  // 重试当前数据包
                continue;
            } else {
                perror("生产者: vmsplice发送失败");
                break;
            }
        } else {
            total_sent += bytes_sent;
            if ((i + 1) % 20 == 0) {
                printf("生产者: 已发送 %d 个数据包 (%d 字节)\n", i + 1, total_sent);
            }
        }
        
        // 模拟处理时间
        if (i % 10 == 0) {
            usleep(10000);  // 10毫秒
        }
    }
    
    printf("生产者: 总共发送 %d 字节\n", total_sent);
    
    // 清理缓冲区
    for (int i = 0; i < NUM_BUFFERS; i++) {
        free(buffers[i]);
    }
    free(buffers);
    
    printf("生产者进程完成\n");
}

// 消费者进程 - 从管道接收数据
void consumer_process(int pipe_read_fd) {
    printf("消费者进程启动 (PID: %d)\n", getpid());
    
    char buffer[BUFFER_SIZE];
    int total_received = 0;
    int packet_count = 0;
    
    clock_t start_time = clock();
    
    // 接收数据
    while (packet_count < NUM_BUFFERS) {
        ssize_t bytes_received = read(pipe_read_fd, buffer, sizeof(buffer) - 1);
        
        if (bytes_received > 0) {
            buffer[bytes_received] = '\0';
            total_received += bytes_received;
            packet_count++;
            
            if (packet_count % 20 == 0) {
                printf("消费者: 已接收 %d 个数据包 (%d 字节)\n", 
                       packet_count, total_received);
            }
        } else if (bytes_received == 0) {
            printf("消费者: 管道已关闭\n");
            break;
        } else {
            if (errno == EAGAIN) {
                usleep(1000);  // 等待1毫秒后重试
                continue;
            } else {
                perror("消费者: 读取数据失败");
                break;
            }
        }
    }
    
    clock_t end_time = clock();
    double elapsed_time = ((double)(end_time - start_time)) / CLOCKS_PER_SEC;
    
    printf("消费者: 总共接收 %d 个数据包, %d 字节\n", packet_count, total_received);
    printf("消费者: 耗时 %.3f 秒, 吞吐量 %.2f KB/s\n", 
           elapsed_time, (total_received / 1024.0) / elapsed_time);
    
    printf("消费者进程完成\n");
}

// 性能测试函数
void performance_test() {
    printf("=== 性能测试 ===\n");
    
    int pipefd[2];
    if (pipe(pipefd) == -1) {
        perror("创建管道失败");
        return;
    }
    
    // 设置管道为非阻塞模式
    int flags = fcntl(pipefd[1], F_GETFL);
    fcntl(pipefd[1], F_SETFL, flags | O_NONBLOCK);
    flags = fcntl(pipefd[0], F_GETFL);
    fcntl(pipefd[0], F_SETFL, flags | O_NONBLOCK);
    
    // 准备大量测试数据
    char* large_data = malloc(1024 * 1024);  // 1MB数据
    if (!large_data) {
        perror("分配测试数据失败");
        close(pipefd[0]);
        close(pipefd[1]);
        return;
    }
    
    memset(large_data, 'A', 1024 * 1024);
    large_data[1024 * 1024 - 1] = '\0';
    
    // 测试vmsplice性能
    clock_t start_time = clock();
    
    struct iovec iov;
    iov.iov_base = large_data;
    iov.iov_len = 1024 * 1024;
    
    ssize_t bytes_sent = vmsplice(pipefd[1], &iov, 1, SPLICE_F_MOVE);
    
    clock_t end_time = clock();
    double elapsed_time = ((double)(end_time - start_time)) / CLOCKS_PER_SEC;
    
    if (bytes_sent > 0) {
        printf("vmsplice传输 %zd 字节\n", bytes_sent);
        printf("耗时: %.6f 秒\n", elapsed_time);
        printf("吞吐量: %.2f MB/s\n", (bytes_sent / (1024.0 * 1024.0)) / elapsed_time);
    } else {
        printf("vmsplice传输失败: %s\n", strerror(errno));
    }
    
    // 测试传统write性能（对比）
    lseek(pipefd[0], 0, SEEK_SET);  // 清空管道
    lseek(pipefd[1], 0, SEEK_SET);
    
    start_time = clock();
    ssize_t write_result = write(pipefd[1], large_data, 1024 * 1024);
    end_time = clock();
    elapsed_time = ((double)(end_time - start_time)) / CLOCKS_PER_SEC;
    
    if (write_result > 0) {
        printf("write传输 %zd 字节\n", write_result);
        printf("耗时: %.6f 秒\n", elapsed_time);
        printf("吞吐量: %.2f MB/s\n", (write_result / (1024.0 * 1024.0)) / elapsed_time);
    }
    
    free(large_data);
    close(pipefd[0]);
    close(pipefd[1]);
    
    printf("=== 性能测试完成 ===\n\n");
}

int main() {
    printf("=== 高性能数据管道应用示例 ===\n");
    
    // 执行性能测试
    performance_test();
    
    // 创建管道用于进程间通信
    int pipefd[2];
    if (pipe(pipefd) == -1) {
        perror("创建管道失败");
        exit(EXIT_FAILURE);
    }
    
    printf("创建数据管道: 读端=%d, 写端=%d\n", pipefd[0], pipefd[1]);
    
    // 启动生产者进程
    pid_t producer_pid = fork();
    if (producer_pid == 0) {
        // 生产者子进程
        close(pipefd[0]);  // 关闭读端
        producer_process(pipefd[1]);
        close(pipefd[1]);
        exit(EXIT_SUCCESS);
    } else if (producer_pid == -1) {
        perror("创建生产者进程失败");
        close(pipefd[0]);
        close(pipefd[1]);
        exit(EXIT_FAILURE);
    }
    
    // 启动消费者进程
    pid_t consumer_pid = fork();
    if (consumer_pid == 0) {
        // 消费者子进程
        close(pipefd[1]);  // 关闭写端
        consumer_process(pipefd[0]);
        close(pipefd[0]);
        exit(EXIT_SUCCESS);
    } else if (consumer_pid == -1) {
        perror("创建消费者进程失败");
        close(pipefd[0]);
        close(pipefd[1]);
        exit(EXIT_FAILURE);
    }
    
    // 父进程关闭两端并等待子进程完成
    close(pipefd[0]);
    close(pipefd[1]);
    
    printf("主进程等待子进程完成...\n");
    waitpid(producer_pid, NULL, 0);
    waitpid(consumer_pid, NULL, 0);
    
    printf("所有进程已完成\n");
    
    printf("\n=== 高性能数据管道应用演示完成 ===\n");
    
    return 0;
}

示例3：vmsplice与内存映射结合使用

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/uio.h>
#include <sys/mman.h>
#include <string.h>
#include <errno.h>
#include <time.h>

#define SHARED_MEMORY_SIZE (1024 * 1024)  // 1MB
#define PACKET_SIZE 1024

// 共享内存结构
typedef struct {
    volatile int write_index;
    volatile int read_index;
    volatile int data_ready;
    char data[SHARED_MEMORY_SIZE - sizeof(int) * 3];
} shared_memory_t;

// 使用vmsplice发送内存映射数据
ssize_t send_mmap_data_with_vmsplice(int pipe_fd, const void* data, size_t data_size) {
    struct iovec iov;
    iov.iov_base = (void*)data;
    iov.iov_len = data_size;
    
    // 使用SPLICE_F_GIFT标志，表示传输后内核拥有页面
    ssize_t result = vmsplice(pipe_fd, &iov, 1, SPLICE_F_MOVE | SPLICE_F_GIFT);
    
    if (result == -1) {
        printf("vmsplice发送失败: %s\n", strerror(errno));
    } else {
        printf("vmsplice发送成功: %zd 字节\n", result);
    }
    
    return result;
}

// 创建测试数据文件
int create_test_data_file(const char* filename, size_t size) {
    int fd = open(filename, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd == -1) {
        perror("创建测试文件失败");
        return -1;
    }
    
    // 填充测试数据
    char* buffer = malloc(4096);
    if (!buffer) {
        close(fd);
        return -1;
    }
    
    for (size_t i = 0; i < size; i += 4096) {
        size_t write_size = (size - i > 4096) ? 4096 : (size - i);
        memset(buffer, 'A' + (i / 4096) % 26, write_size - 1);
        buffer[write_size - 1] = '\n';
        
        if (write(fd, buffer, write_size) != (ssize_t)write_size) {
            perror("写入测试数据失败");
            free(buffer);
            close(fd);
            return -1;
        }
    }
    
    free(buffer);
    printf("创建测试文件: %s (%zu 字节)\n", filename, size);
    return fd;
}

// 演示文件到管道的高效传输
void demonstrate_file_to_pipe_transfer() {
    printf("=== 文件到管道传输演示 ===\n");
    
    const char* test_file = "vmsplice_test_data.txt";
    const size_t file_size = 64 * 1024;  // 64KB
    
    // 创建测试数据文件
    int file_fd = create_test_data_file(test_file, file_size);
    if (file_fd == -1) {
        return;
    }
    
    // 创建管道
    int pipefd[2];
    if (pipe(pipefd) == -1) {
        perror("创建管道失败");
        close(file_fd);
        unlink(test_file);
        return;
    }
    
    // 内存映射文件
    char* mapped_data = mmap(NULL, file_size, PROT_READ, MAP_PRIVATE, file_fd, 0);
    if (mapped_data == MAP_FAILED) {
        perror("内存映射文件失败");
        close(file_fd);
        close(pipefd[0]);
        close(pipefd[1]);
        unlink(test_file);
        return;
    }
    
    printf("文件内存映射成功: %p (%zu 字节)\n", mapped_data, file_size);
    
    // 使用vmsplice传输映射的数据
    printf("使用vmsplice传输映射数据...\n");
    
    clock_t start_time = clock();
    ssize_t bytes_sent = send_mmap_data_with_vmsplice(pipefd[1], mapped_data, file_size);
    clock_t end_time = clock();
    
    if (bytes_sent > 0) {
        double elapsed_time = ((double)(end_time - start_time)) / CLOCKS_PER_SEC;
        printf("传输完成: %zd 字节\n", bytes_sent);
        printf("耗时: %.6f 秒\n", elapsed_time);
        printf("吞吐量: %.2f MB/s\n", (bytes_sent / (1024.0 * 1024.0)) / elapsed_time);
        
        // 验证数据传输
        printf("验证数据传输...\n");
        char* verify_buffer = malloc(file_size);
        if (verify_buffer) {
            ssize_t bytes_received = read(pipefd[0], verify_buffer, file_size);
            if (bytes_received > 0) {
                printf("验证接收: %zd 字节\n", bytes_received);
                if (bytes_received == bytes_sent) {
                    printf("✓ 数据传输验证通过\n");
                } else {
                    printf("✗ 数据传输验证失败\n");
                }
            }
            free(verify_buffer);
        }
    }
    
    // 清理资源
    munmap(mapped_data, file_size);
    close(file_fd);
    close(pipefd[0]);
    close(pipefd[1]);
    unlink(test_file);
    
    printf("=== 文件传输演示完成 ===\n\n");
}

// 高级vmsplice特性演示
void advanced_vmsplice_features() {
    printf("=== 高级vmsplice特性演示 ===\n");
    
    int pipefd[2];
    if (pipe(pipefd) == -1) {
        perror("创建管道失败");
        return;
    }
    
    // 演示不同标志的使用
    printf("1. 不同标志演示:\n");
    
    const char* test_message = "测试消息数据";
    struct iovec iov;
    iov.iov_base = (void*)test_message;
    iov.iov_len = strlen(test_message);
    
    // SPLICE_F_MOVE 标志
    printf("   使用 SPLICE_F_MOVE 标志:\n");
    ssize_t result = vmsplice(pipefd[1], &iov, 1, SPLICE_F_MOVE);
    if (result > 0) {
        printf("   ✓ 传输成功: %zd 字节\n", result);
        
        // 读取验证
        char buffer[256];
        ssize_t bytes_read = read(pipefd[0], buffer, sizeof(buffer) - 1);
        if (bytes_read > 0) {
            buffer[bytes_read] = '\0';
            printf("   接收数据: %s\n", buffer);
        }
    }
    
    // SPLICE_F_MORE 标志（提示还有更多数据）
    printf("   使用 SPLICE_F_MORE 标志:\n");
    const char* more_data = "更多数据";
    iov.iov_base = (void*)more_data;
    iov.iov_len = strlen(more_data);
    
    result = vmsplice(pipefd[1], &iov, 1, SPLICE_F_MORE);
    if (result > 0) {
        printf("   ✓ 传输成功: %zd 字节\n", result);
    }
    
    // SPLICE_F_NONBLOCK 标志（非阻塞模式）
    printf("   使用 SPLICE_F_NONBLOCK 标志:\n");
    
    // 设置管道为非阻塞模式
    int flags = fcntl(pipefd[1], F_GETFL);
    fcntl(pipefd[1], F_SETFL, flags | O_NONBLOCK);
    
    const char* nonblock_data = "非阻塞数据";
    iov.iov_base = (void*)nonblock_data;
    iov.iov_len = strlen(nonblock_data);
    
    result = vmsplice(pipefd[1], &iov, 1, SPLICE_F_NONBLOCK);
    if (result > 0) {
        printf("   ✓ 非阻塞传输成功: %zd 字节\n", result);
    } else if (result == -1) {
        if (errno == EAGAIN) {
            printf("   ✓ 非阻塞模式下暂时无法传输 (EAGAIN)\n");
        } else {
            printf("   ✗ 传输失败: %s\n", strerror(errno));
        }
    }
    
    // 演示大数据传输
    printf("\n2. 大数据传输演示:\n");
    
    // 重置管道为阻塞模式
    fcntl(pipefd[1], F_SETFL, flags);
    
    // 分配大块内存
    size_t large_data_size = 64 * 1024;  // 64KB
    char* large_data = malloc(large_data_size);
    if (large_data) {
        // 填充数据
        for (size_t i = 0; i < large_data_size; i++) {
            large_data[i] = 'A' + (i % 26);
        }
        
        iov.iov_base = large_data;
        iov.iov_len = large_data_size;
        
        clock_t start_time = clock();
        result = vmsplice(pipefd[1], &iov, 1, SPLICE_F_MOVE);
        clock_t end_time = clock();
        
        if (result > 0) {
            double elapsed_time = ((double)(end_time - start_time)) / CLOCKS_PER_SEC;
            printf("   大数据传输: %zd 字节\n", result);
            printf("   耗时: %.6f 秒\n", elapsed_time);
            printf("   吞吐量: %.2f MB/s\n", (result / (1024.0 * 1024.0)) / elapsed_time);
        }
        
        free(large_data);
    }
    
    // 清理资源
    close(pipefd[0]);
    close(pipefd[1]);
    
    printf("=== 高级特性演示完成 ===\n\n");
}

int main() {
    printf("=== vmsplice与内存映射结合使用示例 ===\n");
    
    // 演示文件到管道的高效传输
    demonstrate_file_to_pipe_transfer();
    
    // 演示高级vmsplice特性
    advanced_vmsplice_features();
    
    // 错误处理和边界情况演示
    printf("=== 错误处理演示 ===\n");
    
    // 使用无效参数
    printf("1. 无效参数测试:\n");
    
    ssize_t result = vmsplice(-1, NULL, 0, 0);
    if (result == -1) {
        printf("   无效文件描述符: %s (预期)\n", strerror(errno));
    }
    
    // 使用空向量
    int dummy_pipe[2];
    if (pipe(dummy_pipe) == 0) {
        result = vmsplice(dummy_pipe[1], NULL, 0, 0);
        if (result == -1) {
            printf("   空向量: %s (预期)\n", strerror(errno));
        }
        close(dummy_pipe[0]);
        close(dummy_pipe[1]);
    }
    
    // 使用无效标志
    if (pipe(dummy_pipe) == 0) {
        struct iovec iov = {(void*)"test", 4};
        result = vmsplice(dummy_pipe[1], &iov, 1, 0xFFFFFFFF);
        if (result == -1) {
            printf("   无效标志: %s (预期)\n", strerror(errno));
        }
        close(dummy_pipe[0]);
        close(dummy_pipe[1]);
    }
    
    printf("=== 错误处理演示完成 ===\n");
    
    printf("\n=== vmsplice综合演示完成 ===\n");
    
    return 0;
}

示例4：实际应用场景 – 网络数据转发

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/uio.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <string.h>
#include <errno.h>
#include <time.h>
#include <pthread.h>

#define BUFFER_SIZE 8192
#define MAX_PACKETS 1000

// 数据包结构
typedef struct {
    char data[BUFFER_SIZE];
    size_t length;
    int packet_id;
    time_t timestamp;
} data_packet_t;

// 转发器统计信息
typedef struct {
    volatile long long packets_forwarded;
    volatile long long bytes_forwarded;
    volatile long long packets_dropped;
    time_t start_time;
} forwarder_stats_t;

forwarder_stats_t stats = {0};

// 模拟网络接收缓冲区
typedef struct {
    char* buffer;
    size_t size;
    size_t offset;
} network_buffer_t;

// 创建模拟网络缓冲区
network_buffer_t* create_network_buffer(size_t size) {
    network_buffer_t* nb = malloc(sizeof(network_buffer_t));
    if (!nb) return NULL;
    
    nb->buffer = malloc(size);
    if (!nb->buffer) {
        free(nb);
        return NULL;
    }
    
    nb->size = size;
    nb->offset = 0;
    
    // 填充模拟数据
    for (size_t i = 0; i < size; i++) {
        nb->buffer[i] = 'A' + (i % 26);
    }
    
    return nb;
}

// 从网络缓冲区读取数据包
int read_packet_from_buffer(network_buffer_t* nb, char* packet_buffer, size_t max_size) {
    if (nb->offset >= nb->size) {
        return 0;  // 没有更多数据
    }
    
    // 模拟不同大小的数据包
    size_t packet_size = 100 + (rand() % 1000);
    if (packet_size > max_size) {
        packet_size = max_size;
    }
    
    if (nb->offset + packet_size > nb->size) {
        packet_size = nb->size - nb->offset;
    }
    
    if (packet_size > 0) {
        memcpy(packet_buffer, nb->buffer + nb->offset, packet_size);
        nb->offset += packet_size;
        return packet_size;
    }
    
    return 0;
}

// 使用vmsplice转发数据包
int forward_packet_with_vmsplice(int pipe_fd, const char* packet_data, size_t packet_size) {
    struct iovec iov;
    iov.iov_base = (void*)packet_data;
    iov.iov_len = packet_size;
    
    ssize_t result = vmsplice(pipe_fd, &iov, 1, SPLICE_F_MOVE | SPLICE_F_NONBLOCK);
    
    if (result > 0) {
        __atomic_fetch_add(&stats.packets_forwarded, 1, __ATOMIC_RELAXED);
        __atomic_fetch_add(&stats.bytes_forwarded, result, __ATOMIC_RELAXED);
        return 0;  // 成功
    } else if (result == -1) {
        if (errno == EAGAIN) {
            // 管道满，数据包被丢弃
            __atomic_fetch_add(&stats.packets_dropped, 1, __ATOMIC_RELAXED);
            return 1;  // 丢弃
        } else {
            perror("vmsplice转发失败");
            return -1;  // 错误
        }
    }
    
    return -1;
}

// 数据包生成器线程
void* packet_generator_thread(void* arg) {
    int pipe_write_fd = *(int*)arg;
    network_buffer_t* nb = create_network_buffer(1024 * 1024);  // 1MB缓冲区
    
    if (!nb) {
        printf("生成器: 创建网络缓冲区失败\n");
        return NULL;
    }
    
    printf("生成器线程启动\n");
    
    char packet_buffer[BUFFER_SIZE];
    int packet_count = 0;
    
    // 生成数据包
    while (packet_count < MAX_PACKETS) {
        int packet_size = read_packet_from_buffer(nb, packet_buffer, sizeof(packet_buffer));
        
        if (packet_size > 0) {
            // 使用vmsplice转发数据包
            int result = forward_packet_with_vmsplice(pipe_write_fd, packet_buffer, packet_size);
            
            if (result == 0) {
                packet_count++;
                if (packet_count % 100 == 0) {
                    printf("生成器: 已生成 %d 个数据包\n", packet_count);
                }
            } else if (result == 1) {
                printf("生成器: 数据包被丢弃 (管道满)\n");
            } else {
                printf("生成器: 转发错误\n");
                break;
            }
            
            // 模拟网络延迟
            usleep(1000);  // 1毫秒
        } else {
            break;  // 没有更多数据
        }
    }
    
    free(nb->buffer);
    free(nb);
    
    printf("生成器线程完成，共生成 %d 个数据包\n", packet_count);
    return NULL;
}

// 数据包处理器线程
void* packet_processor_thread(void* arg) {
    int pipe_read_fd = *(int*)arg;
    
    printf("处理器线程启动\n");
    
    char buffer[BUFFER_SIZE];
    int processed_packets = 0;
    
    // 处理数据包
    while (processed_packets < MAX_PACKETS) {
        ssize_t bytes_received = read(pipe_read_fd, buffer, sizeof(buffer));
        
        if (bytes_received > 0) {
            // 模拟数据包处理
            processed_packets++;
            
            if (processed_packets % 100 == 0) {
                printf("处理器: 已处理 %d 个数据包\n", processed_packets);
            }
            
            // 模拟处理时间
            usleep(500);  // 0.5毫秒
        } else if (bytes_received == 0) {
            printf("处理器: 管道已关闭\n");
            break;
        } else {
            if (errno == EAGAIN) {
                usleep(1000);  // 等待1毫秒后重试
                continue;
            } else {
                perror("处理器: 读取数据失败");
                break;
            }
        }
    }
    
    printf("处理器线程完成，共处理 %d 个数据包\n", processed_packets);
    return NULL;
}

// 显示转发统计
void show_forwarding_statistics() {
    time_t current_time = time(NULL);
    double elapsed_time = difftime(current_time, stats.start_time);
    
    long long packets_forwarded = __atomic_load_n(&stats.packets_forwarded, __ATOMIC_RELAXED);
    long long bytes_forwarded = __atomic_load_n(&stats.bytes_forwarded, __ATOMIC_RELAXED);
    long long packets_dropped = __atomic_load_n(&stats.packets_dropped, __ATOMIC_RELAXED);
    
    printf("\n=== 转发统计 ===\n");
    printf("转发数据包: %lld\n", packets_forwarded);
    printf("转发字节数: %lld (%.2f MB)\n", bytes_forwarded, bytes_forwarded / (1024.0 * 1024.0));
    printf("丢弃数据包: %lld\n", packets_dropped);
    printf("运行时间: %.2f 秒\n", elapsed_time);
    
    if (elapsed_time > 0) {
        printf("平均转发速率: %.2f 包/秒\n", packets_forwarded / elapsed_time);
        printf("平均吞吐量: %.2f MB/s\n", (bytes_forwarded / (1024.0 * 1024.0)) / elapsed_time);
    }
    
    if (packets_forwarded + packets_dropped > 0) {
        double drop_rate = (double)packets_dropped / (packets_forwarded + packets_dropped) * 100;
        printf("丢包率: %.2f%%\n", drop_rate);
    }
    printf("================\n\n");
}

// 性能基准测试
void performance_benchmark() {
    printf("=== vmsplice性能基准测试 ===\n");
    
    int pipefd[2];
    if (pipe(pipefd) == -1) {
        perror("创建管道失败");
        return;
    }
    
    // 设置非阻塞模式
    int flags = fcntl(pipefd[1], F_GETFL);
    fcntl(pipefd[1], F_SETFL, flags | O_NONBLOCK);
    flags = fcntl(pipefd[0], F_GETFL);
    fcntl(pipefd[0], F_SETFL, flags | O_NONBLOCK);
    
    // 准备测试数据
    size_t test_sizes[] = {1024, 4096, 16384, 65536, 262144};  // 1KB到256KB
    int num_sizes = sizeof(test_sizes) / sizeof(test_sizes[0]);
    
    printf("%-10s %-15s %-15s %-15s\n", "大小", "vmsplice", "write", "性能提升");
    printf("%-10s %-15s %-15s %-15s\n", "----", "--------", "-----", "--------");
    
    for (int i = 0; i < num_sizes; i++) {
        size_t size = test_sizes[i];
        char* test_data = malloc(size);
        if (!test_data) continue;
        
        // 填充测试数据
        memset(test_data, 'X', size);
        
        struct iovec iov;
        iov.iov_base = test_data;
        iov.iov_len = size;
        
        // 测试vmsplice
        clock_t start = clock();
        ssize_t vmsplice_result = vmsplice(pipefd[1], &iov, 1, SPLICE_F_MOVE | SPLICE_F_NONBLOCK);
        clock_t end = clock();
        double vmsplice_time = ((double)(end - start)) / CLOCKS_PER_SEC;
        
        // 清空管道
        char dummy_buffer[1024 * 1024];
        while (read(pipefd[0], dummy_buffer, sizeof(dummy_buffer)) > 0);
        
        // 测试传统write
        start = clock();
        ssize_t write_result = write(pipefd[1], test_data, size);
        end = clock();
        double write_time = ((double)(end - start)) / CLOCKS_PER_SEC;
        
        // 清空管道
        while (read(pipefd[0], dummy_buffer, sizeof(dummy_buffer)) > 0);
        
        double speedup = (write_time > 0) ? (write_time / vmsplice_time) : 0;
        
        printf("%-10zu %-15.6f %-15.6f %-15.2fx\n", 
               size, vmsplice_time, write_time, speedup);
        
        free(test_data);
    }
    
    close(pipefd[0]);
    close(pipefd[1]);
    
    printf("=== 性能基准测试完成 ===\n\n");
}

int main() {
    printf("=== 网络数据转发应用示例 ===\n");
    
    // 执行性能基准测试
    performance_benchmark();
    
    // 初始化统计
    stats.start_time = time(NULL);
    
    // 创建管道用于线程间通信
    int pipefd[2];
    if (pipe(pipefd) == -1) {
        perror("创建管道失败");
        exit(EXIT_FAILURE);
    }
    
    // 设置管道为非阻塞模式
    int flags = fcntl(pipefd[1], F_GETFL);
    fcntl(pipefd[1], F_SETFL, flags | O_NONBLOCK);
    flags = fcntl(pipefd[0], F_GETFL);
    fcntl(pipefd[0], F_SETFL, flags | O_NONBLOCK);
    
    printf("创建转发管道: 读端=%d, 写端=%d\n", pipefd[0], pipefd[1]);
    
    // 创建线程
    pthread_t generator_thread, processor_thread;
    
    // 启动数据包生成器线程
    if (pthread_create(&generator_thread, NULL, packet_generator_thread, &pipefd[1]) != 0) {
        perror("创建生成器线程失败");
        close(pipefd[0]);
        close(pipefd[1]);
        exit(EXIT_FAILURE);
    }
    
    // 启动数据包处理器线程
    if (pthread_create(&processor_thread, NULL, packet_processor_thread, &pipefd[0]) != 0) {
        perror("创建处理器线程失败");
        close(pipefd[0]);
        close(pipefd[1]);
        exit(EXIT_FAILURE);
    }
    
    // 主线程定期显示统计信息
    for (int i = 0; i < 30; i++) {  // 运行30秒
        sleep(2);
        show_forwarding_statistics();
    }
    
    // 等待线程完成
    pthread_join(generator_thread, NULL);
    pthread_join(processor_thread, NULL);
    
    // 显示最终统计
    show_forwarding_statistics();
    
    // 清理资源
    close(pipefd[0]);
    close(pipefd[1]);
    
    printf("=== 网络数据转发应用演示完成 ===\n");
    
    return 0;
}

编译和运行

# 编译示例（需要定义_GNU_SOURCE）
gcc -D_GNU_SOURCE -o vmsplice_example1 vmsplice_example1.c
gcc -D_GNU_SOURCE -o vmsplice_example2 vmsplice_example2.c
gcc -D_GNU_SOURCE -o vmsplice_example3 vmsplice_example3.c
gcc -D_GNU_SOURCE -o vmsplice_example4 vmsplice_example4.c -lpthread

# 运行示例
./vmsplice_example1
./vmsplice_example2
./vmsplice_example3
./vmsplice_example4

重要注意事项

内核支持: vmsplice需要Linux 2.6.17或更高版本内核支持
权限要求: 需要适当的权限来创建和访问管道
内存管理: 使用SPLICE_F_GIFT标志时要注意内存所有权转移
非阻塞模式: 建议在生产环境中使用非阻塞模式避免阻塞
错误处理: 必须检查返回值并处理EAGAIN等错误
性能考虑: vmsplice在大数据传输时优势明显
线程安全: 管道操作是线程安全的

最佳实践

使用非阻塞模式: 避免无限期阻塞
合理设置标志: 根据应用场景选择合适的标志
内存管理: 正确处理内存所有权和生命周期
错误处理: 完善的错误处理和恢复机制
性能监控: 监控传输性能和系统资源使用
批量传输: 使用向量传输提高效率
资源清理: 及时关闭文件描述符和释放内存

通过这些示例，你可以理解vmsplice在高效数据传输方面的强大功能，它为Linux系统提供了零拷贝或最小拷贝的数据传输机制，特别适用于高性能网络应用、大数据处理和实时系统。

发表在 linux文章 | 留下评论

wait4系统调用及示例

发表于2025-08-07由麦芽爸

1. 函数介绍

wait4 是一个 Linux 系统调用，它是 waitpid 的一个扩展版本。它的主要功能是等待子进程的状态发生变化（通常是子进程终止或停止），并获取该子进程的退出状态信息。

你可以把 wait4 想象成一位家长在等待孩子（子进程）完成任务后回来汇报情况：

家长（父进程）给孩子（子进程）布置了一个任务（比如运行一个程序）。
孩子出去执行任务。
家长调用 wait4，表示“我在家等你回来，告诉我任务完成得怎么样”。
孩子完成任务回家（子进程终止）。
wait4 返回，告诉家长孩子的 PID 和他是如何完成任务的（成功、失败、被中断等）。

wait4 比 wait 和 waitpid 更强大，因为它不仅可以获取子进程的 PID 和状态，还可以同时获取子进程使用的资源统计信息（如用户 CPU 时间、系统 CPU 时间、最大内存使用量等）。

2. 函数原型

#include <sys/wait.h> // 必需
#include <sys/resource.h> // 包含 struct rusage

pid_t wait4(pid_t pid, int *wstatus, int options, struct rusage *rusage);

3. 功能

等待子进程: 挂起调用进程（父进程），直到由 pid 参数指定的一个或多个子进程的状态发生变化。
获取状态: 当子进程状态变化被检测到时，wait4 会返回该子进程的进程 ID (PID)，并将其退出状态（exit status）存储到 wstatus 指向的整型变量中。
获取资源使用信息（可选）: 如果 rusage 参数非空，wait4 还会将子进程的资源使用统计信息（Resource Usage）填充到 rusage 指向的 struct rusage 结构体中。

4. 参数

pid_t pid: 指定要等待的子进程的 ID。其行为与 waitpid 的 pid 参数完全相同：
- < -1: 等待进程组 ID 等于 pid 绝对值的任意子进程。
- -1: 等待任意子进程（这是最常用的情况）。
- 0: 等待调用进程组 ID 与调用进程相同的任意子进程。
- > 0: 等待进程 ID 等于 pid 的特定子进程。
int *wstatus: 这是一个指向 int 类型变量的指针，用于接收子进程的退出状态。
- 如果不需要获取状态，可以传入 NULL（但在实践中很少这么做）。
- 子进程的退出状态包含了它是如何结束的（正常退出、被信号终止等）以及具体的退出码或信号编号。
- 通常使用 <sys/wait.h> 中定义的宏来检查和解析 wstatus 的值：
  - WIFEXITED(wstatus): 如果子进程是正常退出（通过 exit() 或从 main 返回），返回真（非 0）。
  - WEXITSTATUS(wstatus): 如果 WIFEXITED(wstatus) 为真，返回子进程的退出码（0-255）。
  - WIFSIGNALED(wstatus): 如果子进程是被信号终止的，返回真。
  - WTERMSIG(wstatus): 如果 WIFSIGNALED(wstatus) 为真，返回终止子进程的信号编号。
  - WIFSTOPPED(wstatus): 如果子进程当前是停止状态（通常由 SIGSTOP, SIGTSTP, SIGTTIN, SIGTTOU 信号导致），返回真。
  - WSTOPSIG(wstatus): 如果 WIFSTOPPED(wstatus) 为真，返回导致子进程停止的信号编号。
int options: 这是一个位掩码，用于修改 wait4 的行为。它可以是以下零个或多个标志的按位或（OR）组合：
- WNOHANG: 如果没有子进程状态立即可用，则 wait4 不阻塞，立即返回 0。
- WUNTRACED: 报告因信号而停止的子进程状态（即使没有追踪它们）。
- WCONTINUED: 报告先前因信号停止、现已收到 SIGCONT 信号并继续执行的子进程。
struct rusage *rusage: 这是一个指向 struct rusage 结构体的指针。
- 如果非 NULL，wait4 会将子进程的资源使用统计信息填充到该结构体中。
- 如果为 NULL，则不收集资源信息。
  struct rusage 包含了很多关于子进程执行期间资源消耗的详细信息，例如：
struct rusage { struct timeval ru_utime; // 用户 CPU 时间 struct timeval ru_stime; // 系统 CPU 时间 long ru_maxrss; // 最大常驻集大小 (KB) long ru_ixrss; // 共享内存大小积分 (未维护) long ru_idrss; // 未共享数据大小积分 (未维护) long ru_isrss; // 未共享栈大小积分 (未维护) long ru_minflt; // 缺页中断次数 (无需从磁盘加载页面) long ru_majflt; // 主缺页中断次数 (需要从磁盘加载页面) long ru_nswap; // 内存交换次数 (未维护) long ru_inblock; // 文件系统读入操作次数 long ru_oublock; // 文件系统写入操作次数 long ru_msgsnd; // IPC 消息发送次数 (未维护) long ru_msgrcv; // IPC 消息接收次数 (未维护) long ru_nsignals; // 信号接收次数 long ru_nvcsw; // 自愿上下文切换次数 long ru_nivcsw; // 非自愿上下文切换次数 };
- 注意: 并非所有字段在所有系统上都得到维护或精确计算。

5. 返回值

成功时:
- 返回已更改状态的子进程的 PID。
失败时:
- 返回 -1，并设置全局变量 errno 来指示具体的错误原因（例如 ECHILD 没有符合条件的子进程，EINTR 调用被信号中断，EINVAL options 参数无效）。
WNOHANG 且无子进程状态改变时:
- 返回 0。

6. 相似函数，或关联函数

wait: wait(&status) 等价于 wait4(-1, &status, 0, NULL)。它是最简单的等待任意子进程结束的函数。
waitpid: waitpid(pid, &status, options) 等价于 wait4(pid, &status, options, NULL)。它比 wait 更灵活，允许指定等待哪个子进程以及设置选项。
waitid: POSIX.1-2001 标准引入的更现代的等待函数，提供了更细粒度的控制和信息。
getrusage: 用于获取调用进程自身或其已终止子进程的资源使用信息。wait4 的 rusage 参数提供了类似的功能，但针对特定的已终止子进程。

7. 示例代码

示例 1：基本的 `wait4` 使用

这个例子演示了 wait4 最基本的用法，等待子进程结束并获取其退出状态。

// wait4_basic.c
#include <sys/wait.h>   // wait4, WIFEXITED, WEXITSTATUS, WIFSIGNALED, WTERMSIG
#include <sys/resource.h> // struct rusage
#include <unistd.h>     // fork, getpid
#include <stdio.h>      // printf, perror
#include <stdlib.h>     // exit

int main() {
    pid_t pid;
    int status;
    struct rusage usage;

    printf("Parent process (PID: %d) starting.\n", getpid());

    pid = fork();
    if (pid == -1) {
        perror("fork failed");
        exit(EXIT_FAILURE);
    }

    if (pid == 0) {
        // --- 子进程 ---
        printf("Child process (PID: %d) started.\n", getpid());

        // 模拟一些工作
        for (int i = 0; i < 3; ++i) {
            printf("  Child working... %d\n", i + 1);
            sleep(1);
        }

        // 子进程以特定状态码退出
        int exit_code = 42;
        printf("Child process (PID: %d) finished. Exiting with code %d.\n", getpid(), exit_code);
        exit(exit_code); // 正常退出

    } else {
        // --- 父进程 ---
        printf("Parent process (PID: %d) created child (PID: %d).\n", getpid(), pid);

        // --- 关键: 调用 wait4 等待子进程结束 ---
        // pid: 等待特定子进程 pid
        // &status: 接收子进程退出状态
        // 0: 默认选项 (阻塞等待)
        // &usage: 接收资源使用信息
        pid_t waited_pid = wait4(pid, &status, 0, &usage);

        if (waited_pid == -1) {
            perror("wait4 failed");
            exit(EXIT_FAILURE);
        }

        printf("Parent: wait4 returned. Waited for child PID %d.\n", (int)waited_pid);

        // --- 检查和解析子进程退出状态 ---
        if (WIFEXITED(status)) {
            int exit_status = WEXITSTATUS(status);
            printf("Parent: Child exited normally with status code %d.\n", exit_status);
        } else if (WIFSIGNALED(status)) {
            int signal_num = WTERMSIG(status);
            printf("Parent: Child was killed by signal %d.\n", signal_num);
        } else {
            printf("Parent: Child did not exit normally or by signal.\n");
        }

        // --- 打印资源使用信息 ---
        printf("\n--- Resource Usage of Child (PID: %d) ---\n", (int)waited_pid);
        printf("User CPU time used: %ld.%06ld seconds\n",
               (long)usage.ru_utime.tv_sec, (long)usage.ru_utime.tv_usec);
        printf("System CPU time used: %ld.%06ld seconds\n",
               (long)usage.ru_stime.tv_sec, (long)usage.ru_stime.tv_usec);
        printf("Maximum resident set size: %ld KB\n", usage.ru_maxrss);
        printf("Page reclaims (soft page faults): %ld\n", usage.ru_minflt);
        printf("Page faults (hard page faults): %ld\n", usage.ru_majflt);
        printf("Voluntary context switches: %ld\n", usage.ru_nvcsw);
        printf("Involuntary context switches: %ld\n", usage.ru_nivcsw);
        printf("------------------------------------------\n");

        printf("Parent process (PID: %d) finished.\n", getpid());
    }

    return 0;
}

代码解释:

父进程调用 fork() 创建子进程。
子进程:
- 执行一些模拟工作（循环打印并 sleep）。
- 以状态码 42 调用 exit(42) 正常退出。
父进程:
- 调用 wait4(pid, &status, 0, &usage)。
  - pid: 等待之前创建的特定子进程。
  - &status: 指向 int 变量，用于接收退出状态。
  - 0: 使用默认选项，即阻塞等待。
  - &usage: 指向 struct rusage 变量，用于接收资源使用信息。
- 检查 wait4 的返回值。如果成功，返回值是子进程的 PID。
- 使用 WIFEXITED 和 WEXITSTATUS 宏检查子进程是否正常退出，并获取其退出码（42）。
- 打印从 rusage 结构体中获取的资源使用统计信息，如用户 CPU 时间、系统 CPU 时间、最大内存使用量等。

示例 2：使用 `wait4` 等待任意子进程 (`pid = -1`)

这个例子演示了如何使用 wait4 等待任意一个子进程结束。

// wait4_any.c
#include <sys/wait.h>
#include <sys/resource.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>

#define NUM_CHILDREN 3

int main() {
    pid_t pid;
    int i;

    printf("Parent process (PID: %d) creating %d children.\n", getpid(), NUM_CHILDREN);

    // 1. 创建多个子进程
    for (i = 0; i < NUM_CHILDREN; i++) {
        pid = fork();
        if (pid == -1) {
            perror("fork failed");
            exit(EXIT_FAILURE);
        } else if (pid == 0) {
            // --- 子进程 ---
            printf("Child %d (PID: %d) started.\n", i, getpid());
            // 每个子进程睡眠不同的时间
            sleep(i + 2);
            printf("Child %d (PID: %d) finished. Exiting with code %d.\n", i, getpid(), i);
            exit(i); // 以 i 作为退出码
        }
        // --- 父进程继续循环 ---
    }

    printf("Parent (PID: %d) created all children. Now waiting for them to finish.\n", getpid());

    // 2. 循环等待所有子进程结束
    // 使用 wait4(pid=-1, ...) 等待任意子进程
    for (i = 0; i < NUM_CHILDREN; i++) {
        int status;
        struct rusage usage;
        pid_t waited_pid;

        // --- 关键: 使用 pid = -1 等待任意子进程 ---
        waited_pid = wait4(-1, &status, 0, &usage);

        if (waited_pid == -1) {
            perror("wait4 failed");
            // 可能需要更复杂的错误处理
            continue;
        }

        printf("\nParent: wait4 returned. Waited for child PID %d.\n", (int)waited_pid);

        if (WIFEXITED(status)) {
            int exit_code = WEXITSTATUS(status);
            printf("Parent: Child (PID: %d) exited normally with code %d.\n", (int)waited_pid, exit_code);
        } else {
            printf("Parent: Child (PID: %d) did not exit normally.\n", (int)waited_pid);
        }

        printf("Resource usage summary for child (PID: %d):\n", (int)waited_pid);
        printf("  User CPU time: %ld.%06lds\n", (long)usage.ru_utime.tv_sec, (long)usage.ru_utime.tv_usec);
        printf("  Sys CPU time: %ld.%06lds\n", (long)usage.ru_stime.tv_sec, (long)usage.ru_stime.tv_usec);
        printf("  Max RSS: %ld KB\n", usage.ru_maxrss);
    }

    printf("\nParent (PID: %d) finished. All children have been reaped.\n", getpid());
    return 0;
}

代码解释:

父进程通过循环调用 fork() 创建 3 个子进程。
每个子进程执行不同的睡眠时间（2秒、3秒、4秒），然后以自己的索引 i 作为退出码退出。
父进程进入另一个循环，调用 NUM_CHILDREN 次 wait4。
关键: 每次调用 wait4(-1, &status, 0, &usage)。
- pid = -1: 表示等待任意一个子进程结束。
每次 wait4 返回，就处理一个子进程的退出信息和资源使用情况。
循环结束后，所有子进程都被回收。

示例 3：使用 `wait4` 的 `WNOHANG` 选项

这个例子演示了如何使用 WNOHANG 选项让 wait4 非阻塞地检查是否有子进程已经结束。

// wait4_nonblock.c
#include <sys/wait.h>
#include <sys/resource.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <errno.h> // errno, ECHILD

int main() {
    pid_t pid;
    int i;

    printf("Parent process (PID: %d) creating 2 children.\n", getpid());

    // 1. 创建两个子进程
    for (i = 0; i < 2; i++) {
        pid = fork();
        if (pid == -1) {
            perror("fork failed");
            exit(EXIT_FAILURE);
        } else if (pid == 0) {
            // --- 子进程 ---
            printf("Child %d (PID: %d) started, will sleep for %d seconds.\n", i, getpid(), 5 + i * 2);
            sleep(5 + i * 2); // 第一个睡 5 秒，第二个睡 7 秒
            printf("Child %d (PID: %d) finished. Exiting.\n", i, getpid());
            exit(0);
        }
    }

    printf("Parent (PID: %d) created children. Now polling with WNOHANG.\n", getpid());

    int children_finished = 0;
    int loop_count = 0;

    // 2. 循环，使用 WNOHANG 非阻塞地检查子进程状态
    while (children_finished < 2) {
        loop_count++;
        int status;
        struct rusage usage;
        pid_t waited_pid;

        // --- 关键: 使用 WNOHANG 选项 ---
        waited_pid = wait4(-1, &status, WNOHANG, &usage);

        if (waited_pid == -1) {
            if (errno == ECHILD) {
                // 没有子进程了，但这在循环中不太可能发生
                // 因为我们知道有两个子进程
                printf("No children exist (ECHILD). This is unexpected in this loop.\n");
                break;
            } else {
                perror("wait4 failed");
                break;
            }
        } else if (waited_pid == 0) {
            // 没有子进程状态改变
            printf("Loop %d: No child has finished yet. Parent doing other work...\n", loop_count);
            // 模拟父进程在等待期间做其他事情
            sleep(1); // 实际应用中可能是处理其他任务
        } else {
            // 有一个子进程结束了
            children_finished++;
            printf("\nLoop %d: Parent: wait4 returned. Child PID %d has finished.\n", loop_count, (int)waited_pid);
            if (WIFEXITED(status)) {
                printf("  Child (PID: %d) exited normally with code %d.\n", (int)waited_pid, WEXITSTATUS(status));
            }
            printf("  Parent did other work for %d loop(s) while waiting.\n", loop_count);
        }
    }

    printf("\nParent (PID: %d) finished. Both children have been reaped after %d loops.\n", getpid(), loop_count);
    return 0;
}

代码解释:

父进程创建两个子进程，它们分别睡眠 5 秒和 7 秒。
父进程进入一个 while 循环。
关键: 在循环内部调用 wait4(-1, &status, WNOHANG, &usage)。
- WNOHANG: 使 wait4 成为非阻塞调用。
检查 wait4 的返回值：
- waited_pid == -1: 调用失败。检查 errno 是否为 ECHILD。
- waited_pid == 0: 没有子进程状态改变。父进程可以在此时执行其他任务（这里用 sleep(1) 模拟）。
- waited_pid > 0: 一个子进程结束了。处理其状态，并增加计数器 children_finished。
循环直到两个子进程都结束。
打印父进程在等待期间执行了多少次循环（模拟做了多少其他工作）。

重要提示与注意事项:

僵尸进程: 当子进程结束而父进程尚未调用 wait4（或 wait, waitpid）来获取其状态时，子进程会变成僵尸进程（Zombie Process）。这会浪费一个进程表项。因此，父进程必须等待其子进程。
ECHILD 错误: 如果没有符合条件的子进程（例如，所有子进程都已结束且状态已被回收），wait4 会返回 -1 并设置 errno 为 ECHILD。
EINTR 错误: 如果 wait4（阻塞模式）在等待期间被信号中断，它会返回 -1 并设置 errno 为 EINTR。可以使用 sigaction 设置 SA_RESTART 标志或在循环中处理此错误。
rusage 的准确性: rusage 提供的资源信息的准确性和完整性可能因系统和内核版本而异。某些字段可能未被维护。
WNOHANG 的用途: WNOHANG 对于实现非阻塞的服务器或需要在等待子进程的同时处理其他任务的程序非常有用。
与 wait/waitpid 的关系:
- wait(&status) 等价于 wait4(-1, &status, 0, NULL)。
- waitpid(pid, &status, options) 等价于 wait4(pid, &status, options, NULL)。

总结:

wait4 是一个功能强大的系统调用，用于等待子进程状态变化并获取其退出状态和资源使用信息。它通过 pid 参数提供了灵活的等待目标选择，通过 options 参数（特别是 WNOHANG）提供了阻塞/非阻塞行为控制，并通过 rusage 参数提供了宝贵的性能分析数据。理解其参数和返回值对于编写健壮、高效的多进程程序至关重要。

发表在 linux文章 | 留下评论

waitid 系统调用及示例

发表于2025-08-07由麦芽爸

好的，我们来深入学习 waitid 系统调用

1. 函数介绍

在 Linux 系统中，当一个进程创建了子进程（使用 fork），父进程通常需要知道子进程何时结束（退出或被终止），以及它是如何结束的（正常退出码、被哪个信号杀死等）。这是进程管理和资源回收的重要环节。

waitid 系统调用就是用来让父进程（或具有适当权限的进程）等待一个或一组子进程的状态发生变化，并获取该变化的详细信息。

你可以把它想象成一个“进程状态监听器”。父进程调用 waitid 后，它会挂起（阻塞），直到它感兴趣的子进程发生了指定类型的事件（比如退出、被信号终止、停止、继续等）。当事件发生时，waitid 会返回，并把详细信息（哪个子进程、如何结束的）填充到一个结构体中。

waitid 相比于老一些的 wait 和 waitpid，提供了更强大和灵活的功能。

简单来说，waitid 就是让你用程序来“等待”并“获取”子进程的“死亡/停止/恢复”通知书，并且通知书上写得非常详细。

2. 函数原型

#include <sys/wait.h> // 包含 waitid 函数声明和相关常量

int waitid(idtype_t idtype, id_t id, siginfo_t *infop, int options);

3. 功能

挂起调用进程，直到由 idtype 和 id 指定的一个或多个子进程的状态发生变化（变化类型由 options 指定）。当满足条件的子进程状态改变时，将详细的状态信息填充到 infop 指向的 siginfo_t 结构体中。

4. 参数详解

idtype:
- idtype_t 类型。
- 指定要等待的进程的类型。它决定了 id 参数的含义。常见的值有：
  - P_PID: 等待由 id 指定的特定进程 ID (PID) 的子进程。
  - P_PGID: 等待进程组 ID (PGID) 等于 id 的所有子进程。
  - P_ALL: 等待调用进程的所有子进程（此时 id 参数被忽略）。
id:
- id_t 类型。
- 其含义由 idtype 决定：
  - 如果 idtype 是 P_PID，则 id 是要等待的子进程的 PID。
  - 如果 idtype 是 P_PGID，则 id 是要等待的子进程组的 PGID。
  - 如果 idtype 是 P_ALL，则 id 被忽略（通常设为 0）。
infop:
- siginfo_t * 类型。
- 一个指向 siginfo_t 结构体的指针。当 waitid 成功返回时，该结构体会被内核填充为关于已改变状态的子进程的详细信息。
- siginfo_t 结构体包含很多字段，关键的有：
  - si_pid: 导致状态改变的子进程的 PID。
  - si_status: 子进程的退出状态或导致其状态改变的信号编号。
  - si_code: 状态改变的原因代码，例如：
    - CLD_EXITED: 子进程通过 exit() 或从 main 返回正常退出。
    - CLD_KILLED: 子进程被信号杀死。
    - CLD_DUMPED: 子进程被信号杀死并产生了核心转储 (core dump)。
    - CLD_STOPPED: 子进程被信号（如 SIGSTOP）停止。
    - CLD_CONTINUED: 子进程从停止状态被 SIGCONT 信号恢复继续运行。
  - … 还有其他字段。
options:
- int 类型。
- 一个位掩码，用于指定要等待的状态变化类型以及调用的行为。可以是以下值的按位或 (|) 组合：
  - 状态类型 (必须至少指定一个)：
    - WEXITED: 等待子进程正常退出（调用 exit() 或从 main 返回）。
    - WSTOPPED: 等待子进程被停止（通常是收到 SIGSTOP, SIGTSTP, SIGTTIN, SIGTTOU 信号）。
    - WCONTINUED: 等待被停止的子进程恢复运行（收到 SIGCONT 信号）。
  - 行为标志 (可选)：
    - WNOHANG: 非阻塞。如果没有任何子进程的状态符合条件，waitid 立即返回 0，而不挂起调用进程。
    - WNOWAIT: 不收割。获取子进程状态信息，但不将其从内核的子进程表中删除。这意味着后续的 wait 调用仍可能获取到该子进程的信息。

5. 返回值

成功: 返回 0。
失败: 返回 -1，并设置全局变量 errno 来指示具体的错误原因。

6. 错误码 (`errno`)

ECHILD: 没有符合条件的子进程。例如，指定了一个不存在的 PID，或者使用 WNOHANG 时没有子进程处于可收割状态。
EINTR: 系统调用被信号中断。
EINVAL: idtype 或 options 参数无效。

7. 相似函数或关联函数

wait: 最基础的等待子进程退出的函数。它等待任意一个子进程退出，并返回 PID 和状态码（需要使用宏如 WIFEXITED, WEXITSTATUS 等来解析）。pid_t wait(int *wstatus);
waitpid: wait 的增强版。允许指定等待特定 PID 的子进程，或使用 WNOHANG 等选项。pid_t waitpid(pid_t pid, int *wstatus, int options);
wait3 / wait4: 更老的函数，功能与 waitpid 类似，但可以额外返回资源使用信息（struct rusage）。
siginfo_t: waitid 使用的关键数据结构，包含详细的子进程状态信息。

8. 示例代码

下面的示例演示了如何使用 waitid 来等待不同类型的子进程事件。

#define _GNU_SOURCE // 启用 GNU 扩展
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/wait.h>   // 包含 waitid, siginfo_t 等
#include <signal.h>     // 包含 kill, SIG* 常量
#include <string.h>
#include <errno.h>

// 辅助函数：打印 siginfo_t 中的信息
void print_siginfo(const siginfo_t *info) {
    printf("  Child PID: %d\n", info->si_pid);
    printf("  Signal/Exit Code: %d\n", info->si_status);
    printf("  Reason Code: ");
    switch (info->si_code) {
        case CLD_EXITED:
            printf("CLD_EXITED (Child called exit())\n");
            printf("    Exit Status: %d\n", info->si_status);
            break;
        case CLD_KILLED:
            printf("CLD_KILLED (Child was killed by signal)\n");
            printf("    Signal Number: %d\n", info->si_status);
            break;
        case CLD_DUMPED:
            printf("CLD_DUMPED (Child killed by signal and dumped core)\n");
            printf("    Signal Number: %d\n", info->si_status);
            break;
        case CLD_STOPPED:
            printf("CLD_STOPPED (Child was stopped by signal)\n");
            printf("    Stop Signal Number: %d\n", info->si_status);
            break;
        case CLD_CONTINUED:
            printf("CLD_CONTINUED (Child continued)\n");
            // si_status for CLD_CONTINUED is not defined to be meaningful
            break;
        default:
            printf("Unknown reason code: %d\n", info->si_code);
            break;
    }
}

int main() {
    pid_t pid1, pid2, pid3;
    siginfo_t info;

    printf("--- Demonstrating waitid ---\n");
    printf("Parent PID: %d\n", getpid());

    // 1. 创建一个会正常退出的子进程
    pid1 = fork();
    if (pid1 == 0) {
        // --- Child 1 ---
        printf("[Child 1, PID %d] Running for 3 seconds then exiting with status 42.\n", getpid());
        sleep(3);
        exit(42);
    }

    // 2. 创建一个会被信号杀死的子进程
    pid2 = fork();
    if (pid2 == 0) {
        // --- Child 2 ---
        printf("[Child 2, PID %d] Running for 5 seconds then will be killed by SIGTERM.\n", getpid());
        sleep(5);
        // 这行不会执行到
        exit(0);
    }

    // 3. 创建一个会停止和恢复的子进程
    pid3 = fork();
    if (pid3 == 0) {
        // --- Child 3 ---
        printf("[Child 3, PID %d] Running, then will stop and continue.\n", getpid());
        printf("[Child 3] Entering loop, press Ctrl+Z in another terminal to stop me (if I'm foreground).\n");
        printf("[Child 3] Or, the parent will send SIGSTOP and SIGCONT.\n");
        int counter = 0;
        while (counter < 10) {
            printf("[Child 3] Working... %d\n", counter++);
            sleep(1);
        }
        printf("[Child 3] Finished normally.\n");
        exit(100);
    }

    // --- Parent Process ---
    printf("[Parent] Created children: PID1=%d, PID2=%d, PID3=%d\n", pid1, pid2, pid3);

    // 稍等一下，让子进程启动
    sleep(1);

    // 4. 向 Child 3 发送 SIGSTOP 使其停止
    printf("\n[Parent] Sending SIGSTOP to Child 3 (PID %d)...\n", pid3);
    if (kill(pid3, SIGSTOP) == -1) {
        perror("[Parent] kill SIGSTOP");
    }

    // 等待 Child 3 停止
    printf("[Parent] Waiting for Child 3 to stop using waitid(WSTOPPED)...\n");
    memset(&info, 0, sizeof(info)); // 清零结构体
    if (waitid(P_PID, pid3, &info, WSTOPPED) == -1) {
        perror("[Parent] waitid for stop");
    } else {
        printf("[Parent] Detected Child 3 stopped:\n");
        print_siginfo(&info);
    }

    // 5. 等待 Child 1 正常退出
    printf("\n[Parent] Waiting for Child 1 to exit using waitid(WEXITED)...\n");
    memset(&info, 0, sizeof(info));
    if (waitid(P_PID, pid1, &info, WEXITED) == -1) {
        perror("[Parent] waitid for exit pid1");
    } else {
        printf("[Parent] Detected Child 1 exited:\n");
        print_siginfo(&info);
    }

    // 6. 向 Child 2 发送 SIGTERM 使其终止
    printf("\n[Parent] Sending SIGTERM to Child 2 (PID %d)...\n", pid2);
    if (kill(pid2, SIGTERM) == -1) {
        perror("[Parent] kill SIGTERM");
    }

    // 等待 Child 2 被杀死
    printf("[Parent] Waiting for Child 2 to be killed using waitid(WEXITED)...\n");
    memset(&info, 0, sizeof(info));
    if (waitid(P_PID, pid2, &info, WEXITED) == -1) {
        perror("[Parent] waitid for exit pid2");
    } else {
        printf("[Parent] Detected Child 2 killed/exited:\n");
        print_siginfo(&info);
    }

    // 7. 向 Child 3 发送 SIGCONT 使其恢复
    printf("\n[Parent] Sending SIGCONT to Child 3 (PID %d)...\n", pid3);
    if (kill(pid3, SIGCONT) == -1) {
        perror("[Parent] kill SIGCONT");
    }

    // 等待 Child 3 恢复运行 (这个可能不会立即发生，取决于子进程何时真正恢复)
    // 更常见的是等待它最终退出
    printf("[Parent] Waiting for Child 3 to continue and then exit using waitid(WCONTINUED | WEXITED)...\n");
    printf("[Parent] (WCONTINUED detection might be unreliable, waiting for exit instead)\n");
    memset(&info, 0, sizeof(info));
    // 通常我们只等待最终的退出
    if (waitid(P_PID, pid3, &info, WEXITED) == -1) {
        perror("[Parent] waitid for exit pid3");
    } else {
        printf("[Parent] Detected Child 3 exited:\n");
        print_siginfo(&info);
    }

    // 8. 演示 WNOHANG (非阻塞)
    printf("\n[Parent] Demonstrating WNOHANG...\n");
    printf("[Parent] Calling waitid(P_ALL, 0, info, WEXITED | WNOHANG)...\n");
    memset(&info, 0, sizeof(info));
    int result = waitid(P_ALL, 0, &info, WEXITED | WNOHANG);
    if (result == -1) {
        perror("[Parent] waitid WNOHANG");
    } else if (result == 0) {
        // 如果返回 0，表示成功调用，但没有符合条件的子进程状态改变
        // 因为我们已经等待了所有子进程退出，所以这里应该没有更多可收割的
        printf("[Parent] WNOHANG returned 0: No children available to wait for.\n");
    }

    printf("\n[Parent] All children have been waited for. Parent exiting.\n");

    printf("\n--- Summary ---\n");
    printf("1. waitid(idtype, id, infop, options) waits for child process state changes.\n");
    printf("2. idtype/id let you specify which child/children to wait for (PID, PGID, ALL).\n");
    printf("3. options specify what events to wait for (WEXITED, WSTOPPED, WCONTINUED).\n");
    printf("4. WNOHANG makes it non-blocking. WNOWAIT gets status without reaping.\n");
    printf("5. infop (siginfo_t*) provides detailed information about the event.\n");
    printf("6. It's more flexible and informative than wait/waitpid.\n");

    return 0;
}

9. 编译和运行

# 假设代码保存在 waitid_example.c 中
gcc -o waitid_example waitid_example.c

# 运行程序
./waitid_example

10. 预期输出

--- Demonstrating waitid ---
Parent PID: 12345
[Child 1, PID 12346] Running for 3 seconds then exiting with status 42.
[Child 2, PID 12347] Running for 5 seconds then will be killed by SIGTERM.
[Child 3, PID 12348] Running, then will stop and continue.
[Child 3] Entering loop, press Ctrl+Z in another terminal to stop me (if I'm foreground).
[Child 3] Or, the parent will send SIGSTOP and SIGCONT.
[Parent] Created children: PID1=12346, PID2=12347, PID3=12348

[Parent] Sending SIGSTOP to Child 3 (PID 12348)...
[Parent] Waiting for Child 3 to stop using waitid(WSTOPPED)...
[Child 3] Working... 0
[Child 3] Working... 1
[Parent] Detected Child 3 stopped:
  Child PID: 12348
  Signal/Exit Code: 19
  Reason Code: CLD_STOPPED (Child was stopped by signal)
    Stop Signal Number: 19

[Parent] Waiting for Child 1 to exit using waitid(WEXITED)...
[Child 1] Running for 3 seconds then exiting with status 42.
[Parent] Detected Child 1 exited:
  Child PID: 12346
  Signal/Exit Code: 42
  Reason Code: CLD_EXITED (Child called exit())
    Exit Status: 42

[Parent] Sending SIGTERM to Child 2 (PID 12347)...
[Parent] Waiting for Child 2 to be killed using waitid(WEXITED)...
[Child 2] Running for 5 seconds then will be killed by SIGTERM.
[Parent] Detected Child 2 killed/exited:
  Child PID: 12347
  Signal/Exit Code: 15
  Reason Code: CLD_KILLED (Child was killed by signal)
    Signal Number: 15

[Parent] Sending SIGCONT to Child 3 (PID 12348)...
[Parent] Waiting for Child 3 to continue and then exit using waitid(WCONTINUED | WEXITED)...
[Parent] (WCONTINUED detection might be unreliable, waiting for exit instead)
[Child 3] Working... 2
[Child 3] Working... 3
[Child 3] Working... 4
[Child 3] Working... 5
[Child 3] Working... 6
[Child 3] Working... 7
[Child 3] Working... 8
[Child 3] Working... 9
[Child 3] Finished normally.
[Parent] Detected Child 3 exited:
  Child PID: 12348
  Signal/Exit Code: 100
  Reason Code: CLD_EXITED (Child called exit())
    Exit Status: 100

[Parent] Demonstrating WNOHANG...
[Parent] Calling waitid(P_ALL, 0, info, WEXITED | WNOHANG)...
[Parent] WNOHANG returned 0: No children available to wait for.

[Parent] All children have been waited for. Parent exiting.

--- Summary ---
1. waitid(idtype, id, infop, options) waits for child process state changes.
2. idtype/id let you specify which child/children to wait for (PID, PGID, ALL).
3. options specify what events to wait for (WEXITED, WSTOPPED, WCONTINUED).
4. WNOHANG makes it non-blocking. WNOWAIT gets status without reaping.
5. infop (siginfo_t*) provides detailed information about the event.
6. It's more flexible and informative than wait/waitpid.

11. 总结

waitid 是一个功能强大且信息丰富的系统调用，用于等待子进程状态变化。

核心优势：
- 灵活性高：可以精确指定等待哪个进程/进程组，以及等待哪种类型的事件（退出、停止、恢复）。
- 信息详细：通过 siginfo_t 结构体返回非常详细的子进程状态信息，比 wait/waitpid 的 wstatus 整数更易于理解和使用。
- 功能完整：支持停止/恢复事件的等待（WSTOPPED, WCONTINUED）。
参数：idtype/id 定义范围，options 定义事件类型和行为，infop 接收结果。
使用场景：
- 需要精确控制等待哪个子进程。
- 需要区分子进程是正常退出、被信号杀死还是停止/恢复。
- 编写复杂的进程管理器或守护进程。
与 wait/waitpid 的关系：
- wait(&status) 基本等价于 waitpid(-1, &status, 0)。
- waitpid(pid, &status, options) 功能是 waitid 的子集。
- waitid 提供了 waitpid 所没有的 WSTOPPED/WCONTINUED 等选项（除非使用非标准扩展），以及更详细的信息返回方式。

发表在 linux文章 | 留下评论

writev系统调用及示例

发表于2025-08-07由麦芽爸

writev 函数详解

1. 函数介绍

writev 是Linux系统调用，用于向文件描述符写入多个分散的缓冲区数据（scatter-gather I/O）。它是 write 函数的增强版本，允许一次系统调用写入多个不连续的内存区域，减少了系统调用的开销，提高了I/O性能。

2. 函数原型

#include <sys/uio.h>
ssize_t writev(int fd, const struct iovec *iov, int iovcnt);

3. 功能

writev 将多个分散的缓冲区数据原子性地写入到指定的文件描述符中。它使用分散/聚集I/O（scatter-gather I/O）机制，可以显著减少系统调用次数，提高大量小数据块写入的性能。

4. 参数

int fd: 目标文件描述符
*const struct iovec iov: iovec结构体数组，描述多个缓冲区
int iovcnt: iovec数组中的元素个数

5. 返回值

成功: 返回实际写入的字节数
失败: 返回-1，并设置errno

6. 相似函数，或关联函数

readv: 对应的读取函数
write: 基本写入函数
sendmsg/recvmsg: 网络套接字的分散/聚集I/O
preadv/pwritev: 带偏移量的分散/聚集I/O

7. 示例代码

示例1：基础writev使用

#include <sys/uio.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>

/**
 * 演示基础writev使用方法
 */
int demo_writev_basic() {
    const char *header = "HTTP/1.1 200 OK\r\n";
    const char *content_type = "Content-Type: text/html\r\n";
    const char *content_length = "Content-Length: 25\r\n";
    const char *connection = "Connection: close\r\n";
    const char *blank_line = "\r\n";
    const char *body = "<html><body>Hello</body></html>";
    
    struct iovec iov[6];
    int fd;
    ssize_t bytes_written;
    
    printf("=== 基础writev使用示例 ===\n");
    
    // 准备iovec数组
    iov[0].iov_base = (void*)header;
    iov[0].iov_len = strlen(header);
    
    iov[1].iov_base = (void*)content_type;
    iov[1].iov_len = strlen(content_type);
    
    iov[2].iov_base = (void*)content_length;
    iov[2].iov_len = strlen(content_length);
    
    iov[3].iov_base = (void*)connection;
    iov[3].iov_len = strlen(connection);
    
    iov[4].iov_base = (void*)blank_line;
    iov[4].iov_len = strlen(blank_line);
    
    iov[5].iov_base = (void*)body;
    iov[5].iov_len = strlen(body);
    
    // 显示要写入的数据
    printf("准备写入的数据:\n");
    for (int i = 0; i < 6; i++) {
        printf("  缓冲区 %d: %.*s", i + 1, (int)iov[i].iov_len, (char*)iov[i].iov_base);
        // 如果不是以换行符结尾，添加换行符
        if (iov[i].iov_len > 0 && ((char*)iov[i].iov_base)[iov[i].iov_len - 1] != '\n') {
            printf("\n");
        }
    }
    
    printf("\n总数据长度: %zu 字节\n", 
           iov[0].iov_len + iov[1].iov_len + iov[2].iov_len + 
           iov[3].iov_len + iov[4].iov_len + iov[5].iov_len);
    
    // 写入到标准输出（演示用途）
    printf("\n1. 使用writev写入到标准输出:\n");
    bytes_written = writev(STDOUT_FILENO, iov, 6);
    if (bytes_written == -1) {
        perror("writev 失败");
        return -1;
    }
    printf("  成功写入 %zd 字节\n", bytes_written);
    
    // 写入到文件
    printf("\n2. 使用writev写入到文件:\n");
    fd = open("writev_output.txt", O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd == -1) {
        perror("创建文件失败");
        return -1;
    }
    
    bytes_written = writev(fd, iov, 6);
    if (bytes_written == -1) {
        perror("writev 写入文件失败");
        close(fd);
        return -1;
    }
    printf("  成功写入文件 %zd 字节\n", bytes_written);
    
    close(fd);
    
    // 验证写入结果
    printf("\n3. 验证写入结果:\n");
    fd = open("writev_output.txt", O_RDONLY);
    if (fd != -1) {
        char buffer[1024];
        ssize_t bytes_read = read(fd, buffer, sizeof(buffer) - 1);
        if (bytes_read > 0) {
            buffer[bytes_read] = '\0';
            printf("  文件内容:\n%s", buffer);
        }
        close(fd);
        unlink("writev_output.txt");  // 清理测试文件
    }
    
    return 0;
}

int main() {
    return demo_writev_basic();
}

示例2：性能对比测试

#include <sys/uio.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>
#include <time.h>
#include <sys/time.h>

/**
 * 性能测试结构
 */
typedef struct {
    const char *name;
    double writev_time;
    double write_time;
    ssize_t total_bytes;
    int operation_count;
} performance_test_t;

/**
 * 使用writev进行批量写入
 */
ssize_t writev_bulk_write(int fd, const char **messages, int count) {
    struct iovec *iov = malloc(count * sizeof(struct iovec));
    if (!iov) {
        return -1;
    }
    
    ssize_t total_written = 0;
    
    // 准备iovec数组
    for (int i = 0; i < count; i++) {
        iov[i].iov_base = (void*)messages[i];
        iov[i].iov_len = strlen(messages[i]);
    }
    
    // 执行writev写入
    ssize_t result = writev(fd, iov, count);
    if (result != -1) {
        total_written = result;
    }
    
    free(iov);
    return total_written;
}

/**
 * 使用多次write进行批量写入
 */
ssize_t write_bulk_write(int fd, const char **messages, int count) {
    ssize_t total_written = 0;
    
    for (int i = 0; i < count; i++) {
        ssize_t result = write(fd, messages[i], strlen(messages[i]));
        if (result == -1) {
            return -1;
        }
        total_written += result;
    }
    
    return total_written;
}

/**
 * 获取当前时间（微秒）
 */
long long get_current_time_us() {
    struct timeval tv;
    gettimeofday(&tv, NULL);
    return tv.tv_sec * 1000000LL + tv.tv_usec;
}

/**
 * 演示writev性能对比
 */
int demo_writev_performance_comparison() {
    const int message_count = 1000;
    const char *test_messages[1000];
    int fd_writev, fd_write;
    performance_test_t test_results;
    
    printf("=== writev vs write 性能对比测试 ===\n");
    
    // 准备测试消息
    printf("1. 准备测试数据:\n");
    char **message_buffers = malloc(message_count * sizeof(char*));
    if (!message_buffers) {
        perror("分配消息缓冲区失败");
        return -1;
    }
    
    for (int i = 0; i < message_count; i++) {
        message_buffers[i] = malloc(64);
        if (message_buffers[i]) {
            snprintf(message_buffers[i], 64, "Test message %d: Hello World!\n", i + 1);
            test_messages[i] = message_buffers[i];
        } else {
            printf("分配消息 %d 失败\n", i);
            // 清理已分配的缓冲区
            for (int j = 0; j < i; j++) {
                free(message_buffers[j]);
            }
            free(message_buffers);
            return -1;
        }
    }
    
    printf("  准备了 %d 条测试消息\n", message_count);
    
    // 计算总数据量
    size_t total_data_size = 0;
    for (int i = 0; i < message_count; i++) {
        total_data_size += strlen(test_messages[i]);
    }
    printf("  总数据量: %zu 字节 (%.2f KB)\n", total_data_size, total_data_size / 1024.0);
    
    // 创建测试文件
    printf("\n2. 创建测试文件:\n");
    fd_writev = open("writev_test.txt", O_CREAT | O_WRONLY | O_TRUNC, 0644);
    fd_write = open("write_test.txt", O_CREAT | O_WRONLY | O_TRUNC, 0644);
    
    if (fd_writev == -1 || fd_write == -1) {
        perror("创建测试文件失败");
        if (fd_writev != -1) close(fd_writev);
        if (fd_write != -1) close(fd_write);
        // 清理消息缓冲区
        for (int i = 0; i < message_count; i++) {
            free(message_buffers[i]);
        }
        free(message_buffers);
        return -1;
    }
    
    printf("  writev测试文件: writev_test.txt\n");
    printf("  write测试文件: write_test.txt\n");
    
    // writev性能测试
    printf("\n3. writev性能测试:\n");
    long long start_time = get_current_time_us();
    
    ssize_t writev_bytes = writev_bulk_write(fd_writev, test_messages, message_count);
    if (writev_bytes == -1) {
        perror("writev测试失败");
        close(fd_writev);
        close(fd_write);
        unlink("writev_test.txt");
        unlink("write_test.txt");
        // 清理消息缓冲区
        for (int i = 0; i < message_count; i++) {
            free(message_buffers[i]);
        }
        free(message_buffers);
        return -1;
    }
    
    long long end_time = get_current_time_us();
    double writev_time = (end_time - start_time) / 1000.0;  // 转换为毫秒
    
    printf("  writev写入字节数: %zd\n", writev_bytes);
    printf("  writev耗时: %.3f 毫秒\n", writev_time);
    
    close(fd_writev);
    
    // write性能测试
    printf("\n4. write性能测试:\n");
    start_time = get_current_time_us();
    
    ssize_t write_bytes = write_bulk_write(fd_write, test_messages, message_count);
    if (write_bytes == -1) {
        perror("write测试失败");
        close(fd_write);
        unlink("writev_test.txt");
        unlink("write_test.txt");
        // 清理消息缓冲区
        for (int i = 0; i < message_count; i++) {
            free(message_buffers[i]);
        }
        free(message_buffers);
        return -1;
    }
    
    end_time = get_current_time_us();
    double write_time = (end_time - start_time) / 1000.0;  // 转换为毫秒
    
    printf("  write写入字节数: %zd\n", write_bytes);
    printf("  write耗时: %.3f 毫秒\n", write_time);
    
    close(fd_write);
    
    // 显示性能对比结果
    printf("\n5. 性能对比结果:\n");
    printf("  数据总量: %zu 字节\n", total_data_size);
    printf("  writev操作: %d 次系统调用\n", 1);
    printf("  write操作: %d 次系统调用\n", message_count);
    printf("  writev耗时: %.3f 毫秒\n", writev_time);
    printf("  write耗时: %.3f 毫秒\n", write_time);
    
    if (write_time > 0 && writev_time > 0) {
        double speedup = write_time / writev_time;
        double reduction = (write_time - writev_time) / write_time * 100;
        
        printf("  性能提升: %.2f 倍\n", speedup);
        printf("  时间减少: %.1f%%\n", reduction);
    }
    
    // 验证数据一致性
    printf("\n6. 数据一致性验证:\n");
    if (writev_bytes == write_bytes) {
        printf("  ✓ 写入字节数一致\n");
    } else {
        printf("  ✗ 写入字节数不一致 (writev: %zd, write: %zd)\n", writev_bytes, write_bytes);
    }
    
    // 清理测试文件
    unlink("writev_test.txt");
    unlink("write_test.txt");
    
    // 清理消息缓冲区
    for (int i = 0; i < message_count; i++) {
        free(message_buffers[i]);
    }
    free(message_buffers);
    
    // 显示性能分析
    printf("\n=== 性能分析 ===\n");
    printf("1. 系统调用开销:\n");
    printf("   writev减少了 %d 次系统调用\n", message_count - 1);
    printf("   每次系统调用节省约 %.3f 微秒\n", 
           ((write_time - writev_time) * 1000) / (message_count - 1));
    
    printf("\n2. 适用场景:\n");
    printf("   ✓ 大量小数据块写入\n");
    printf("   ✓ 网络协议数据组装\n");
    printf("   ✓ 日志文件批量写入\n");
    printf("   ✓ 数据库事务日志\n");
    
    printf("\n3. 性能优化建议:\n");
    printf("   ✓ 合理设置iovec数组大小\n");
    printf("   ✓ 避免过于频繁的writev调用\n");
    printf("   ✓ 考虑使用异步I/O\n");
    printf("   ✓ 监控系统调用性能\n");
    
    return 0;
}

int main() {
    return demo_writev_performance_comparison();
}

示例3：网络协议数据组装

#include <sys/uio.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <sys/socket.h>

/**
 * HTTP响应结构
 */
typedef struct {
    int status_code;
    const char *status_text;
    const char *content_type;
    size_t content_length;
    const char *headers[16];
    int header_count;
} http_response_t;

/**
 * 创建HTTP响应头部
 */
int create_http_headers(http_response_t *response, struct iovec *iov, int max_iov) {
    int iov_index = 0;
    
    // 状态行
    char *status_line = malloc(64);
    if (!status_line) return -1;
    snprintf(status_line, 64, "HTTP/1.1 %d %s\r\n", 
             response->status_code, response->status_text);
    iov[iov_index].iov_base = status_line;
    iov[iov_index].iov_len = strlen(status_line);
    iov_index++;
    
    // Content-Type
    char *content_type_header = malloc(64);
    if (!content_type_header) {
        free(status_line);
        return -1;
    }
    snprintf(content_type_header, 64, "Content-Type: %s\r\n", response->content_type);
    iov[iov_index].iov_base = content_type_header;
    iov[iov_index].iov_len = strlen(content_type_header);
    iov_index++;
    
    // Content-Length
    char *content_length_header = malloc(64);
    if (!content_length_header) {
        free(status_line);
        free(content_type_header);
        return -1;
    }
    snprintf(content_length_header, 64, "Content-Length: %zu\r\n", response->content_length);
    iov[iov_index].iov_base = content_length_header;
    iov[iov_index].iov_len = strlen(content_length_header);
    iov_index++;
    
    // 自定义头部
    for (int i = 0; i < response->header_count && iov_index < max_iov - 2; i++) {
        char *custom_header = strdup(response->headers[i]);
        if (custom_header) {
            iov[iov_index].iov_base = custom_header;
            iov[iov_index].iov_len = strlen(custom_header);
            iov_index++;
        }
    }
    
    // 空行分隔符
    char *blank_line = malloc(3);
    if (!blank_line) {
        // 清理已分配的内存
        for (int i = 0; i < iov_index; i++) {
            free(iov[i].iov_base);
        }
        return -1;
    }
    strcpy(blank_line, "\r\n");
    iov[iov_index].iov_base = blank_line;
    iov[iov_index].iov_len = 2;
    iov_index++;
    
    return iov_index;
}

/**
 * 演示网络协议数据组装
 */
int demo_network_protocol_assembly() {
    http_response_t response = {0};
    struct iovec iov[32];
    int iov_count;
    int fd;
    
    printf("=== 网络协议数据组装演示 ===\n");
    
    // 初始化HTTP响应
    printf("1. 初始化HTTP响应:\n");
    response.status_code = 200;
    response.status_text = "OK";
    response.content_type = "application/json";
    response.content_length = 45;
    response.header_count = 2;
    response.headers[0] = "Server: MyWebServer/1.0";
    response.headers[1] = "Cache-Control: no-cache";
    
    printf("  状态码: %d %s\n", response.status_code, response.status_text);
    printf("  内容类型: %s\n", response.content_type);
    printf("  内容长度: %zu 字节\n", response.content_length);
    printf("  自定义头部: %d 个\n", response.header_count);
    for (int i = 0; i < response.header_count; i++) {
        printf("    %s\n", response.headers[i]);
    }
    
    // 创建响应内容
    const char *content = "{\"message\":\"Hello World\",\"status\":\"success\"}";
    
    // 创建HTTP头部
    printf("\n2. 创建HTTP头部:\n");
    iov_count = create_http_headers(&response, iov, 32);
    if (iov_count == -1) {
        printf("创建HTTP头部失败\n");
        return -1;
    }
    
    printf("  创建了 %d 个头部片段\n", iov_count);
    
    // 添加响应内容
    printf("\n3. 添加响应内容:\n");
    if (iov_count < 32) {
        iov[iov_count].iov_base = (void*)content;
        iov[iov_count].iov_len = strlen(content);
        iov_count++;
        printf("  添加响应内容: %s\n", content);
    }
    
    // 显示完整的HTTP响应
    printf("\n4. 完整HTTP响应:\n");
    for (int i = 0; i < iov_count; i++) {
        printf("%.*s", (int)iov[i].iov_len, (char*)iov[i].iov_base);
    }
    
    // 计算总长度
    size_t total_length = 0;
    for (int i = 0; i < iov_count; i++) {
        total_length += iov[i].iov_len;
    }
    printf("\n总响应长度: %zu 字节\n", total_length);
    
    // 写入到文件（模拟网络发送）
    printf("\n5. 写入到文件（模拟网络发送）:\n");
    fd = open("http_response.txt", O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd == -1) {
        perror("创建响应文件失败");
        // 清理内存
        for (int i = 0; i < iov_count; i++) {
            free(iov[i].iov_base);
        }
        return -1;
    }
    
    ssize_t bytes_written = writev(fd, iov, iov_count);
    if (bytes_written == -1) {
        perror("writev 写入失败");
        close(fd);
        unlink("http_response.txt");
        // 清理内存
        for (int i = 0; i < iov_count; i++) {
            free(iov[i].iov_base);
        }
        return -1;
    }
    
    printf("  成功写入 %zd 字节到文件\n", bytes_written);
    close(fd);
    
    // 验证写入结果
    printf("\n6. 验证写入结果:\n");
    fd = open("http_response.txt", O_RDONLY);
    if (fd != -1) {
        char buffer[512];
        ssize_t bytes_read = read(fd, buffer, sizeof(buffer) - 1);
        if (bytes_read > 0) {
            buffer[bytes_read] = '\0';
            printf("  文件内容 (%zd 字节):\n", bytes_read);
            printf("%s", buffer);
        }
        close(fd);
        unlink("http_response.txt");
    }
    
    // 清理内存
    for (int i = 0; i < iov_count; i++) {
        free(iov[i].iov_base);
    }
    
    // 显示协议组装优势
    printf("\n=== 协议组装优势 ===\n");
    printf("1. 零拷贝组装:\n");
    printf("   ✓ 避免数据拷贝操作\n");
    printf("   ✓ 减少内存使用\n");
    printf("   ✓ 提高组装效率\n");
    
    printf("\n2. 原子性保证:\n");
    printf("   ✓ 单次系统调用完成\n");
    printf("   ✓ 数据完整性保证\n");
    printf("   ✓ 避免部分写入问题\n");
    
    printf("\n3. 灵活性:\n");
    printf("   ✓ 动态头部组装\n");
    printf("   ✓ 可变内容长度\n");
    printf("   ✓ 复杂协议支持\n");
    
    return 0;
}

int main() {
    return demo_network_protocol_assembly();
}

示例4：日志系统优化

#include <sys/uio.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>
#include <time.h>
#include <pthread.h>

/**
 * 日志条目结构
 */
typedef struct {
    time_t timestamp;
    const char *level;
    const char *module;
    const char *message;
    pid_t pid;
    pthread_t tid;
} log_entry_t;

/**
 * 日志缓冲区管理器
 */
typedef struct {
    struct iovec *iov;
    int capacity;
    int count;
    size_t total_size;
    int fd;
} log_buffer_t;

/**
 * 初始化日志缓冲区
 */
int init_log_buffer(log_buffer_t *buffer, int capacity, const char *filename) {
    buffer->iov = malloc(capacity * sizeof(struct iovec));
    if (!buffer->iov) {
        return -1;
    }
    
    buffer->capacity = capacity;
    buffer->count = 0;
    buffer->total_size = 0;
    
    // 打开日志文件
    buffer->fd = open(filename, O_CREAT | O_WRONLY | O_APPEND, 0644);
    if (buffer->fd == -1) {
        free(buffer->iov);
        return -1;
    }
    
    printf("日志缓冲区初始化完成:\n");
    printf("  缓冲区容量: %d 条目\n", capacity);
    printf("  日志文件: %s\n", filename);
    
    return 0;
}

/**
 * 格式化日志条目
 */
char* format_log_entry(const log_entry_t *entry) {
    char *buffer = malloc(512);
    if (!buffer) {
        return NULL;
    }
    
    struct tm *tm_info = localtime(&entry->timestamp);
    char time_str[32];
    strftime(time_str, sizeof(time_str), "%Y-%m-%d %H:%M:%S", tm_info);
    
    snprintf(buffer, 512, "[%s] [%s] [%s] [PID:%d TID:%lu] %s\n",
             time_str, entry->level, entry->module, 
             entry->pid, (unsigned long)entry->tid, entry->message);
    
    return buffer;
}

/**
 * 添加日志条目到缓冲区
 */
int add_log_entry(log_buffer_t *buffer, const log_entry_t *entry) {
    if (buffer->count >= buffer->capacity) {
        printf("日志缓冲区已满\n");
        return -1;
    }
    
    char *formatted_entry = format_log_entry(entry);
    if (!formatted_entry) {
        return -1;
    }
    
    buffer->iov[buffer->count].iov_base = formatted_entry;
    buffer->iov[buffer->count].iov_len = strlen(formatted_entry);
    
    buffer->total_size += buffer->iov[buffer->count].iov_len;
    buffer->count++;
    
    return 0;
}

/**
 * 冲刷日志缓冲区
 */
int flush_log_buffer(log_buffer_t *buffer) {
    if (buffer->count == 0) {
        return 0;
    }
    
    printf("冲刷日志缓冲区: %d 条目, %zu 字节\n", buffer->count, buffer->total_size);
    
    ssize_t bytes_written = writev(buffer->fd, buffer->iov, buffer->count);
    if (bytes_written == -1) {
        perror("写入日志失败");
        return -1;
    }
    
    printf("  成功写入 %zd 字节\n", bytes_written);
    
    // 清理内存
    for (int i = 0; i < buffer->count; i++) {
        free(buffer->iov[i].iov_base);
    }
    
    buffer->count = 0;
    buffer->total_size = 0;
    
    return 0;
}

/**
 * 演示日志系统优化
 */
int demo_log_system_optimization() {
    log_buffer_t log_buffer;
    const int buffer_capacity = 100;
    const char *log_filename = "optimized_log.txt";
    
    printf("=== 日志系统优化演示 ===\n");
    
    // 初始化日志缓冲区
    printf("1. 初始化日志缓冲区:\n");
    if (init_log_buffer(&log_buffer, buffer_capacity, log_filename) != 0) {
        printf("初始化日志缓冲区失败\n");
        return -1;
    }
    
    // 生成测试日志条目
    printf("\n2. 生成测试日志条目:\n");
    const char *modules[] = {"Database", "Network", "Cache", "Security", "Monitor"};
    const char *levels[] = {"DEBUG", "INFO", "WARN", "ERROR"};
    const char *messages[] = {
        "Operation completed successfully",
        "Data synchronized with remote server",
        "Cache hit ratio improved to 95%",
        "Security scan completed without issues",
        "Performance metrics updated"
    };
    
    srand(time(NULL));
    
    // 模拟日志生成
    printf("  生成日志条目:\n");
    for (int i = 0; i < 15; i++) {
        log_entry_t entry;
        entry.timestamp = time(NULL);
        entry.level = levels[rand() % 4];
        entry.module = modules[rand() % 5];
        entry.message = messages[rand() % 5];
        entry.pid = getpid();
        entry.tid = pthread_self();
        
        if (add_log_entry(&log_buffer, &entry) == 0) {
            printf("    [%s] [%s] %s\n", entry.level, entry.module, entry.message);
        } else {
            printf("    添加日志条目失败\n");
            break;
        }
        
        // 模拟批量冲刷
        if ((i + 1) % 5 == 0) {
            printf("  批量冲刷日志 (%d 条目)\n", log_buffer.count);
            flush_log_buffer(&log_buffer);
        }
    }
    
    // 最终冲刷
    printf("\n3. 最终冲刷剩余日志:\n");
    flush_log_buffer(&log_buffer);
    
    // 验证日志文件
    printf("\n4. 验证日志文件:\n");
    int fd = open(log_filename, O_RDONLY);
    if (fd != -1) {
        char buffer[2048];
        ssize_t bytes_read = read(fd, buffer, sizeof(buffer) - 1);
        if (bytes_read > 0) {
            buffer[bytes_read] = '\0';
            printf("  日志文件内容 (%zd 字节):\n", bytes_read);
            
            // 只显示前几行
            char *line = strtok(buffer, "\n");
            int line_count = 0;
            while (line && line_count < 10) {
                printf("    %s\n", line);
                line = strtok(NULL, "\n");
                line_count++;
            }
            if (line) {
                printf("    ... (还有更多日志)\n");
            }
        }
        close(fd);
        unlink(log_filename);
    }
    
    // 清理资源
    free(log_buffer.iov);
    close(log_buffer.fd);
    
    // 显示优化效果
    printf("\n=== 日志系统优化效果 ===\n");
    printf("1. 性能提升:\n");
    printf("   ✓ 减少系统调用次数\n");
    printf("   ✓ 提高批量写入效率\n");
    printf("   ✓ 降低I/O开销\n");
    
    printf("\n2. 资源优化:\n");
    printf("   ✓ 减少内存分配次数\n");
    printf("   ✓ 优化缓冲区使用\n");
    printf("   ✓ 提高磁盘I/O效率\n");
    
    printf("\n3. 可靠性提升:\n");
    printf("   ✓ 原子性日志写入\n");
    printf("   ✓ 错误处理机制\n");
    printf("   ✓ 数据完整性保证\n");
    
    return 0;
}

int main() {
    return demo_log_system_optimization();
}

示例5：数据库事务日志

#include <sys/uio.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>
#include <time.h>
#include <sys/stat.h>

/**
 * 事务操作类型
 */
typedef enum {
    TXN_BEGIN = 1,
    TXN_COMMIT = 2,
    TXN_ROLLBACK = 3,
    TXN_INSERT = 4,
    TXN_UPDATE = 5,
    TXN_DELETE = 6
} txn_operation_t;

/**
 * 事务日志条目
 */
typedef struct {
    txn_operation_t operation;
    time_t timestamp;
    unsigned long transaction_id;
    const char *table_name;
    const char *data;
    size_t data_size;
} txn_log_entry_t;

/**
 * 事务日志管理器
 */
typedef struct {
    int log_fd;
    char log_filename[256];
    struct iovec *iov_buffer;
    int buffer_capacity;
    int buffer_count;
    size_t buffer_size;
    unsigned long current_txn_id;
} txn_log_manager_t;

/**
 * 初始化事务日志管理器
 */
int init_txn_log_manager(txn_log_manager_t *manager, const char *log_dir) {
    // 创建日志目录
    struct stat st = {0};
    if (stat(log_dir, &st) == -1) {
        if (mkdir(log_dir, 0755) == -1) {
            perror("创建日志目录失败");
            return -1;
        }
    }
    
    // 初始化管理器
    snprintf(manager->log_filename, sizeof(manager->log_filename), 
             "%s/transaction.log", log_dir);
    
    manager->log_fd = open(manager->log_filename, 
                          O_CREAT | O_WRONLY | O_APPEND, 0644);
    if (manager->log_fd == -1) {
        perror("创建事务日志文件失败");
        return -1;
    }
    
    manager->buffer_capacity = 64;
    manager->iov_buffer = malloc(manager->buffer_capacity * sizeof(struct iovec));
    if (!manager->iov_buffer) {
        close(manager->log_fd);
        return -1;
    }
    
    manager->buffer_count = 0;
    manager->buffer_size = 0;
    manager->current_txn_id = time(NULL);  // 简单的事务ID生成
    
    printf("事务日志管理器初始化完成:\n");
    printf("  日志文件: %s\n", manager->log_filename);
    printf("  缓冲区容量: %d\n", manager->buffer_capacity);
    printf("  初始事务ID: %lu\n", manager->current_txn_id);
    
    return 0;
}

/**
 * 格式化事务日志条目
 */
char* format_txn_log_entry(const txn_log_entry_t *entry) {
    char *buffer = malloc(512);
    if (!buffer) {
        return NULL;
    }
    
    struct tm *tm_info = localtime(&entry->timestamp);
    char time_str[32];
    strftime(time_str, sizeof(time_str), "%Y-%m-%d %H:%M:%S", tm_info);
    
    const char *op_names[] = {
        "", "BEGIN", "COMMIT", "ROLLBACK", "INSERT", "UPDATE", "DELETE"
    };
    
    snprintf(buffer, 512, "[%s] TXN:%lu OP:%s TABLE:%s SIZE:%zu DATA:%s\n",
             time_str, entry->transaction_id, 
             op_names[entry->operation],
             entry->table_name ? entry->table_name : "N/A",
             entry->data_size,
             entry->data ? entry->data : "");
    
    return buffer;
}

/**
 * 添加事务日志条目
 */
int add_txn_log_entry(txn_log_manager_t *manager, const txn_log_entry_t *entry) {
    if (manager->buffer_count >= manager->buffer_capacity) {
        printf("事务日志缓冲区已满，需要冲刷\n");
        if (flush_txn_log_buffer(manager) != 0) {
            return -1;
        }
    }
    
    char *formatted_entry = format_txn_log_entry(entry);
    if (!formatted_entry) {
        return -1;
    }
    
    manager->iov_buffer[manager->buffer_count].iov_base = formatted_entry;
    manager->iov_buffer[manager->buffer_count].iov_len = strlen(formatted_entry);
    
    manager->buffer_size += manager->iov_buffer[manager->buffer_count].iov_len;
    manager->buffer_count++;
    
    printf("添加事务日志条目: TXN:%lu OP:%d\n", 
           entry->transaction_id, entry->operation);
    
    return 0;
}

/**
 * 冲刷事务日志缓冲区
 */
int flush_txn_log_buffer(txn_log_manager_t *manager) {
    if (manager->buffer_count == 0) {
        return 0;
    }
    
    printf("冲刷事务日志缓冲区: %d 条目, %zu 字节\n", 
           manager->buffer_count, manager->buffer_size);
    
    ssize_t bytes_written = writev(manager->log_fd, manager->iov_buffer, manager->buffer_count);
    if (bytes_written == -1) {
        perror("写入事务日志失败");
        return -1;
    }
    
    printf("  成功写入 %zd 字节事务日志\n", bytes_written);
    
    // 清理内存
    for (int i = 0; i < manager->buffer_count; i++) {
        free(manager->iov_buffer[i].iov_base);
    }
    
    manager->buffer_count = 0;
    manager->buffer_size = 0;
    
    // 同步到磁盘
    fsync(manager->log_fd);
    
    return 0;
}

/**
 * 演示数据库事务日志
 */
int demo_database_transaction_log() {
    txn_log_manager_t log_manager;
    const char *log_directory = "./txn_logs";
    
    printf("=== 数据库事务日志演示 ===\n");
    
    // 初始化事务日志管理器
    printf("1. 初始化事务日志管理器:\n");
    if (init_txn_log_manager(&log_manager, log_directory) != 0) {
        printf("初始化事务日志管理器失败\n");
        return -1;
    }
    
    // 模拟数据库事务操作
    printf("\n2. 模拟数据库事务操作:\n");
    
    // 事务1: 插入操作
    printf("  事务1: 数据插入操作\n");
    txn_log_entry_t insert_entry = {
        .operation = TXN_BEGIN,
        .timestamp = time(NULL),
        .transaction_id = log_manager.current_txn_id++,
        .table_name = "users",
        .data = "{'name':'John','email':'john@example.com'}",
        .data_size = 45
    };
    add_txn_log_entry(&log_manager, &insert_entry);
    
    txn_log_entry_t insert_data = {
        .operation = TXN_INSERT,
        .timestamp = time(NULL),
        .transaction_id = insert_entry.transaction_id,
        .table_name = "users",
        .data = "INSERT INTO users VALUES ('John', 'john@example.com')",
        .data_size = 52
    };
    add_txn_log_entry(&log_manager, &insert_data);
    
    txn_log_entry_t commit_entry = {
        .operation = TXN_COMMIT,
        .timestamp = time(NULL),
        .transaction_id = insert_entry.transaction_id,
        .table_name = "users",
        .data = "Transaction committed successfully",
        .data_size = 32
    };
    add_txn_log_entry(&log_manager, &commit_entry);
    
    // 冲刷第一个事务
    flush_txn_log_buffer(&log_manager);
    
    // 事务2: 更新操作
    printf("\n  事务2: 数据更新操作\n");
    txn_log_entry_t update_entry = {
        .operation = TXN_BEGIN,
        .timestamp = time(NULL),
        .transaction_id = log_manager.current_txn_id++,
        .table_name = "orders",
        .data = "{'order_id':12345,'status':'processing'}",
        .data_size = 42
    };
    add_txn_log_entry(&log_manager, &update_entry);
    
    txn_log_entry_t update_data = {
        .operation = TXN_UPDATE,
        .timestamp = time(NULL),
        .transaction_id = update_entry.transaction_id,
        .table_name = "orders",
        .data = "UPDATE orders SET status='shipped' WHERE order_id=12345",
        .data_size = 55
    };
    add_txn_log_entry(&log_manager, &update_data);
    
    // 事务3: 删除操作（在同一事务中）
    txn_log_entry_t delete_data = {
        .operation = TXN_DELETE,
        .timestamp = time(NULL),
        .transaction_id = update_entry.transaction_id,
        .table_name = "cart_items",
        .data = "DELETE FROM cart_items WHERE user_id=1001",
        .data_size = 43
    };
    add_txn_log_entry(&log_manager, &delete_data);
    
    txn_log_entry_t commit_update = {
        .operation = TXN_COMMIT,
        .timestamp = time(NULL),
        .transaction_id = update_entry.transaction_id,
        .table_name = "orders",
        .data = "Multi-table transaction committed",
        .data_size = 35
    };
    add_txn_log_entry(&log_manager, &commit_update);
    
    // 事务4: 回滚操作
    printf("\n  事务3: 事务回滚操作\n");
    txn_log_entry_t rollback_entry = {
        .operation = TXN_BEGIN,
        .timestamp = time(NULL),
        .transaction_id = log_manager.current_txn_id++,
        .table_name = "inventory",
        .data = "Stock adjustment transaction",
        .data_size = 28
    };
    add_txn_log_entry(&log_manager, &rollback_entry);
    
    txn_log_entry_t error_entry = {
        .operation = TXN_UPDATE,
        .timestamp = time(NULL),
        .transaction_id = rollback_entry.transaction_id,
        .table_name = "inventory",
        .data = "UPDATE inventory SET quantity=-5 WHERE product_id=100",  // 错误：负库存
        .data_size = 57
    };
    add_txn_log_entry(&log_manager, &error_entry);
    
    txn_log_entry_t rollback_txn = {
        .operation = TXN_ROLLBACK,
        .timestamp = time(NULL),
        .transaction_id = rollback_entry.transaction_id,
        .table_name = "inventory",
        .data = "Rollback due to negative stock adjustment",
        .data_size = 45
    };
    add_txn_log_entry(&log_manager, &rollback_txn);
    
    // 最终冲刷
    printf("\n3. 最终冲刷剩余日志:\n");
    flush_txn_log_buffer(&log_manager);
    
    // 验证日志文件
    printf("\n4. 验证事务日志文件:\n");
    int fd = open(log_manager.log_filename, O_RDONLY);
    if (fd != -1) {
        char buffer[2048];
        ssize_t bytes_read = read(fd, buffer, sizeof(buffer) - 1);
        if (bytes_read > 0) {
            buffer[bytes_read] = '\0';
            printf("  事务日志内容 (%zd 字节):\n", bytes_read);
            
            // 显示日志内容
            char *line = strtok(buffer, "\n");
            while (line) {
                printf("    %s\n", line);
                line = strtok(NULL, "\n");
            }
        }
        close(fd);
    }
    
    // 清理资源
    if (log_manager.iov_buffer) {
        // 清理可能残留的缓冲区条目
        for (int i = 0; i < log_manager.buffer_count; i++) {
            free(log_manager.iov_buffer[i].iov_base);
        }
        free(log_manager.iov_buffer);
    }
    if (log_manager.log_fd != -1) {
        close(log_manager.log_fd);
    }
    
    // 清理日志文件
    unlink(log_manager.log_filename);
    rmdir(log_directory);
    
    // 显示事务日志优势
    printf("\n=== 事务日志优势 ===\n");
    printf("1. ACID特性保证:\n");
    printf("   ✓ 原子性: 事务操作要么全部成功要么全部失败\n");
    printf("   ✓ 一致性: 系统从一个一致状态转换到另一个一致状态\n");
    printf("   ✓ 隔离性: 并发事务之间相互隔离\n");
    printf("   ✓ 持久性: 事务提交后对数据的修改是永久性的\n");
    
    printf("\n2. 性能优化:\n");
    printf("   ✓ 批量日志写入减少I/O操作\n");
    printf("   ✓ 零拷贝数据组装提高效率\n");
    printf("   ✓ 缓冲机制减少系统调用开销\n");
    printf("   ✓ 异步写入提高响应速度\n");
    
    printf("\n3. 可靠性保障:\n");
    printf("   ✓ 完整的事务轨迹记录\n");
    printf("   ✓ 快速故障恢复能力\n");
    printf("   ✓ 数据一致性验证\n");
    printf("   ✓ 审计和合规支持\n");
    
    return 0;
}

int main() {
    return demo_database_transaction_log();
}

writev 使用注意事项

系统限制：

IOV_MAX: 系统限制iovec数组的最大长度（通常为1024）
单次写入限制: 一次writev调用写入的总字节数有限制
文件描述符类型: 不是所有文件描述符都支持writev

错误处理：

部分写入: 可能只写入部分数据
错误恢复: 需要处理部分成功的场景
资源清理: 失败时需要清理已分配的资源

性能考虑：

缓冲区大小: 合理设置iovec数组大小
内存对齐: 考虑内存对齐优化
批量操作: 尽量批量处理减少系统调用

安全考虑：

缓冲区验证: 验证iovec缓冲区的有效性
权限检查: 确保有适当的文件写入权限
数据完整性: 确保写入数据的完整性

最佳实践：

合理使用: 在合适的场景下使用writev
错误处理: 妥善处理各种错误情况
资源管理: 及时释放分配的资源
性能监控: 监控writev的性能表现

writev vs 相似函数对比

writev vs write：

// write: 单缓冲区写入
char buffer[1024];
write(fd, buffer, sizeof(buffer));

// writev: 多缓冲区写入
struct iovec iov[3];
iov[0].iov_base = buffer1; iov[0].iov_len = len1;
iov[1].iov_base = buffer2; iov[1].iov_len = len2;
iov[2].iov_base = buffer3; iov[2].iov_len = len3;
writev(fd, iov, 3);

writev vs sendmsg：

// writev: 简单的分散写入
writev(sockfd, iov, iovcnt);

// sendmsg: 带控制信息的分散写入
struct msghdr msg = {0};
msg.msg_iov = iov;
msg.msg_iovlen = iovcnt;
msg.msg_control = control_data;
sendmsg(sockfd, &msg, flags);

常见使用场景

1. 网络协议组装：

// HTTP响应组装
struct iovec iov[5];
iov[0].iov_base = status_line; iov[0].iov_len = strlen(status_line);
iov[1].iov_base = headers; iov[1].iov_len = strlen(headers);
iov[2].iov_base = blank_line; iov[2].iov_len = 2;
iov[3].iov_base = content; iov[3].iov_len = content_len;
iov[4].iov_base = trailers; iov[4].iov_len = strlen(trailers);
writev(client_fd, iov, 5);

2. 日志系统优化：

// 批量日志写入
struct iovec log_entries[100];
// ... 填充日志条目
writev(log_fd, log_entries, entry_count);

3. 数据库事务日志：

// 事务操作日志
struct iovec txn_records[10];
// ... 填充事务记录
writev(txn_log_fd, txn_records, record_count);

总结

writev 是Linux系统中重要的分散写入函数，提供了：

高效性: 减少系统调用次数，提高I/O性能
灵活性: 支持多个不连续缓冲区的原子写入
标准兼容: 符合POSIX标准，广泛支持
应用场景广: 适用于网络编程、日志系统、数据库等场景

通过合理使用 writev，可以构建高性能的数据处理和传输系统。在实际应用中，需要注意系统限制、错误处理和性能优化等问题。

发表在 linux文章 | 留下评论

write系统调用及示例

发表于2025-08-07由麦芽爸

我们来介绍与 read 和 open 紧密配合使用的 write 函数。如果说 read 是从文件描述符“拿”数据，那么 write 就是向文件描述符“放”数据。

1. 函数介绍

write 是一个 Linux 系统调用，用于将数据从程序的缓冲区写入到由文件描述符 fd 指定的文件、管道、套接字或其他输出流中。它是程序向外部（如文件、屏幕、网络）发送数据的基本方式之一。

2. 函数原型

#include <unistd.h>

ssize_t write(int fd, const void *buf, size_t count);

3. 功能

尝试将 count 个字节的数据从 buf 指向的缓冲区写入到文件描述符 fd 所关联的文件或资源中。

4. 参数

int fd: 这是目标文件描述符。它标识了数据要写入的目标，比如通过 open 打开的文件、标准输出 (STDOUT_FILENO)、标准错误 (STDERR_FILENO) 或一个网络套接字等。
const void *buf: 这是一个指向包含待写入数据的缓冲区的指针。由于数据是从这个缓冲区读取并写出去的，所以指针被声明为 const，表明函数不会修改这块内存中的数据。
size_t count: 这是要写入的字节数。函数会尝试写入从 buf 开始的 count 个字节。

5. 返回值

write 函数返回实际成功写入的字节数。

成功时:
- 返回实际写入的字节数 (0 <= 返回值 <= count)。
- 在阻塞模式下，通常返回值会等于 count。但在某些情况下（如写入管道或网络套接字时缓冲区满），返回值可能小于 count。这时，程序通常需要循环调用 write 来写入剩余的数据。
出错时:
- 返回 -1，并设置全局变量 errno 来指示具体的错误类型（例如 EAGAIN、EBADF、EFAULT、ENOSPC 等）。

重要提示: 绝对不能仅仅通过检查 write 的返回值是否为 -1 来判断写操作是否完全成功。必须检查返回值是否等于请求写入的字节数 count，或者在返回值小于 count 时采取相应措施（如循环写入）。

6. 相似函数，或关联函数

pwrite: 类似于 write，但它允许你在一次调用中同时指定要写入的文件描述符、缓冲区、写入字节数以及文件内的偏移量。它不会改变文件的当前偏移量。
writev: 允许你将多个不连续缓冲区（一个 iovec 数组）中的数据写入到文件描述符中，这对于需要拼接发送多个数据块的场景非常有用。
read: 与 write 相反，用于从文件描述符读取数据。
open: 通常在调用 write 之前使用，用来获取要写入文件的文件描述符。

7. 示例代码

示例 1：将数据写入文件

这个例子演示如何创建（或截断）一个文件，并将一些文本数据写入其中。

#include <unistd.h>  // write, close
#include <fcntl.h>   // open, O_WRONLY, O_CREAT, O_TRUNC
#include <stdio.h>   // perror, printf
#include <stdlib.h>  // exit
#include <string.h>  // strlen
#include <errno.h>   // errno

int main() {
    int fd;                    // 文件描述符
    const char *message = "Hello, Linux System Programming!\n";
    size_t message_len = strlen(message); // 获取要写入的字节数
    ssize_t bytes_written;    // 实际写入的字节数

    // 1. 打开(或创建)一个文件用于写入
    // O_WRONLY: 只写模式
    // O_CREAT: 如果文件不存在则创建
    // O_TRUNC: 如果文件存在，则截断(清空)它
    // 0644 是新创建文件的权限 (所有者读写，组和其他用户只读)
    fd = open("output.txt", O_WRONLY | O_CREAT | O_TRUNC, 0644);
    if (fd == -1) {
        perror("Error opening/creating file");
        exit(EXIT_FAILURE);
    }

    printf("File 'output.txt' opened/created successfully with fd: %d\n", fd);

    // 2. 调用 write 将数据写入文件
    bytes_written = write(fd, message, message_len);

    // 3. 检查 write 的返回值
    if (bytes_written == -1) {
        perror("Error writing to file");
        close(fd); // 出错也要记得关闭文件
        exit(EXIT_FAILURE);
    } else if ((size_t)bytes_written != message_len) {
        // 检查是否所有数据都被写入 (在简单场景下通常如此，但好习惯是检查)
        fprintf(stderr, "Warning: Only %zd of %zu bytes written to file.\n", bytes_written, message_len);
        // 在实际应用中，可能需要循环 write 来处理这种情况
    } else {
         printf("Successfully wrote %zd bytes to 'output.txt'.\n", bytes_written);
    }

    // 4. 关闭文件描述符
    if (close(fd) == -1) {
        perror("Error closing file");
        exit(EXIT_FAILURE);
    }

    printf("File closed. Check 'output.txt' for the content.\n");
    return 0;
}

代码解释:

定义要写入的字符串 message 和其长度 message_len。
使用 open() 以只写模式 (O_WRONLY) 打开或创建 output.txt 文件。如果文件不存在则创建 (O_CREAT)，如果存在则清空 (O_TRUNC)。权限设置为 0644。
调用 write(fd, message, message_len) 尝试将整个消息写入文件。
检查 write 的返回值：-1 表示错误；如果返回值不等于 message_len，则表示未完全写入（在此简单场景下不太可能发生，但展示了检查的必要性）；否则表示成功写入。
最后，使用 close() 关闭文件描述符。

示例 2：向标准错误输出写入错误信息

这个例子展示了如何使用 write 向标准错误 (STDERR_FILENO) 写入信息，这通常用于输出错误或诊断信息，与标准输出分开。

#include <unistd.h>  // write
#include <string.h>  // strlen

int main() {
    const char *error_msg = "An error occurred in the program.\n";

    // 直接向标准错误 (文件描述符 2) 写入错误信息
    // 注意：这里也没有处理 write 可能部分写入的情况，
    // 对于短消息写入 stderr 通常可以假设一次性成功，
    // 但在严格要求下仍需检查返回值。
    write(STDERR_FILENO, error_msg, strlen(error_msg));

    return 0; // 程序正常退出，但 stderr 上有错误信息
}

代码解释:

定义错误信息字符串。
直接调用 write(STDERR_FILENO, error_msg, strlen(error_msg)) 将错误信息写入标准错误输出。STDERR_FILENO 是预定义的常量，值为 2。

write系统调用及示例

发表在 linux文章 | 留下评论

Uchardet Code Analysis

发表于2025-08-06由麦芽爸

Uchardet Code Analysis: nsUTF8Prober Confidence Calculation

Uchardet库中的utf-8的置信度计算方法

1. Core Logic

The detector’s core principle is: Verify UTF-8 encoding rules to determine if text is UTF-8. It uses a state machine (mCodingSM) to track byte sequence compliance with UTF-8 specifications.

Reset(): Initializes detector state, resets state machine, multi-byte character counter (mNumOfMBChar), and detection state (mState).
HandleData(): Primary function for processing input byte streams:
- Processes bytes sequentially through the state machine (mCodingSM->NextState(aBuf[i]))
- eItsMe state return indicates definite UTF-8 rule violation → detector state becomes eFoundIt (effectively “confirmed not UTF-8”)
- eStart state return indicates successful recognition of a complete UTF-8 character:
  - For multi-byte characters (mCodingSM->GetCurrentCharLen() >= 2), increments mNumOfMBChar
  - Includes logic to build Unicode code points (currentCodePoint) stored in codePointBuffer
- Key optimization: At HandleData‘s end: if (mState == eDetecting) if (mNumOfMBChar > ENOUGH_CHAR_THRESHOLD && GetConfidence(0) > SHORTCUT_THRESHOLD) mState = eFoundIt; This allows early termination when sufficient valid multi-byte characters are found (mNumOfMBChar > 256) with high confidence.

2. Confidence Calculation (`GetConfidence`)

Core calculation logic:

#define ONE_CHAR_PROB   (float)0.50

float nsUTF8Prober::GetConfidence(int candidate)
{
  if (mNumOfMBChar < 6)  // Fewer than 6 multi-byte characters
  {
    float unlike = 0.5f; // Initial 50% probability of not being UTF-8
    
    // Each valid multi-byte character has 50% probability of being coincidental
    // Combined probability for N characters: (0.5)^N
    for (PRUint32 i = 0; i < mNumOfMBChar; i++)
      unlike *= ONE_CHAR_PROB; // Multiply by 0.5 per character
    
    // Confidence = 1 - probability of coincidence
    return (float)1.0 - unlike;
  }
  else  // 6+ multi-byte characters
  {
    return (float)0.99; // High-confidence threshold
  }
}

3. Confidence Calculation Methodology

The algorithm uses a statistical significance heuristic:

Low-Confidence Mode (<6 MB characters):
- Models probability that N valid UTF-8 sequences appear coincidentally in non-UTF8 text as (0.5)^N
- ONE_CHAR_PROB=0.5 is an empirical estimate of random byte sequences accidentally matching UTF-8 rules
- Confidence = 1 - (0.5)^N
- Examples:
  - 0 MB chars: 50% confidence
  - 1 MB char: 75% confidence
  - 3 MB chars: 93.75% confidence
  - 5 MB chars: 98.4375% confidence
High-Confidence Mode (≥6 MB characters):
- Returns fixed 99% confidence
- Optimization based on empirical observation that 6 valid sequences provide near-certain detection
- Minimizes false positives while maintaining efficiency

4. Key Characteristics

Aspect	Description
Detection Basis	Multi-byte character count (`mNumOfMBChar`)
Calculation Approach	Statistical model of coincidental matches
Probability Constant	Empirical value (0.5)
Threshold	6 multi-byte characters
Strengths	Simple computation, fast rejection of invalid sequences
Detection Philosophy	Focuses on disproving non-UTF8 through rule validation

5. Practical Implications

Short text sensitivity: Confidence builds slowly with character count
Language dependence: More effective for languages requiring frequent multi-byte characters
Error resilience: Single invalid sequence resets confidence building
Performance tradeoff: Threshold value balances accuracy vs processing time

This confidence model exemplifies Uchardet’s practical approach – using statistically-informed heuristics to achieve efficient encoding detection without complex probabilistic modeling. The 0.5 probability constant and 6-character threshold represent carefully balanced empirical values refined through real-world testing.

发表在 linux文章 | 留下评论

LLC协议格式

发表于2025-08-06由麦芽爸

LLC协议格式

IEEE 802.2标准定义了逻辑链路控制（LLC，Logical Link Control）协议，它是数据链路层的一部分，主要用于管理和控制局域网（LAN）中的数据传输。LLC层位于MAC（介质访问控制）子层之上，负责向网络层提供统一的接口，并屏蔽底层物理网络的差异。LLC协议的设计目标是为不同的网络协议（如IP、IPX等）提供通用的数据传输服务。

LLC协议的核心功能包括帧格式定义、流量控制、差错控制以及协议多路复用。LLC帧格式通常由三个主要字段组成：

1. **DSAP（Destination Service Access Point）**：表示目标服务访问点，用于标识接收方的上层协议。
2. **SSAP（Source Service Access Point）**：表示源服务访问点，用于标识发送方的上层协议。
3. **控制字段（Control Field）**：用于定义帧的类型（如信息帧、监督帧或无编号帧）以及相关的控制信息，例如序列号、确认号等。

LLC协议支持三种主要的帧类型：
– **信息帧（I帧）**：用于传输用户数据，并包含序列号和确认号，支持可靠的面向连接的数据传输。
– **监督帧（S帧）**：用于流量控制和差错控制，但不携带用户数据。
– **无编号帧（U帧）**：用于建立和释放连接，或执行其他控制功能，例如测试和诊断。

LLC协议通过这些机制实现了对数据链路层的抽象，使得上层协议可以独立于具体的物理网络技术进行通信。例如，在IEEE 802.3以太网中，LLC层可以与MAC子层结合使用，通过802.2 LLC头部封装IP数据报，从而实现与上层协议的交互。

此外，LLC协议还支持无连接和面向连接两种操作模式。在无连接模式下，数据帧直接发送而不需要建立连接；而在面向连接模式下，LLC协议会在数据传输前建立连接，并在传输结束后释放连接，以确保可靠的数据传输。

### LLC与Ethernet II的区别
LLC协议通常与IEEE 802.3标准一起使用，而Ethernet II则采用了一种更简单的帧格式。Ethernet II帧中没有LLC头部，而是直接使用类型字段（EtherType）来标识上层协议（如IPv4、ARP等）。相比之下，IEEE 802.3帧需要通过LLC头部来标识上层协议，因此在实际应用中，Ethernet II更为常见。

以下是一个典型的LLC帧封装示例（基于IEEE 802.3帧结构）：

在实际网络中，LLC协议的使用频率有所下降，尤其是在现代以太网环境中，Ethernet II因其简洁性和高效性而被广泛采用。然而，在某些传统网络协议（如NetBIOS、IPX/SPX）中，LLC仍然发挥着重要作用。

发表在 linux文章 | 留下评论

Advanced C Programming Techniques and Best Practices

发表于2025-08-06由麦芽爸

Advanced C Programming Techniques and Best Practices – Complete Edition

Macro Definitions and Preprocessing Techniques

1. Conditional Compilation and Platform Detection

/**
 * Platform and compiler detection
 * Used for conditional compilation and cross-platform compatibility
 */
#if defined(_WIN32) || defined(_WIN64)
    #define PLATFORM_WINDOWS
#elif defined(__linux__)
    #define PLATFORM_LINUX
#elif defined(__APPLE__)
    #define PLATFORM_MACOS
#endif

// Compiler detection
#if defined(__GNUC__)
    #define COMPILER_GCC
#elif defined(_MSC_VER)
    #define COMPILER_MSVC
#endif

// Version detection
#if __STDC_VERSION__ >= 201112L
    #define C11_SUPPORTED
#endif

2. Advanced Macro Techniques

/**
 * Advanced macro collection
 * Provides type-safe and convenient macro utilities
 */

// Stringification and concatenation
#define STRINGIFY(x) #x
#define TOSTRING(x) STRINGIFY(x)
#define CONCAT(a, b) a##b

// Get array size
#define ARRAY_SIZE(arr) (sizeof(arr) / sizeof((arr)[0]))

// container_of macro (get container pointer from member pointer)
#define container_of(ptr, type, member) ({          \
    void *__mptr = (void *)(ptr);                    \
    ((type *)(__mptr - offsetof(type, member))); })

// Min/Max values
#define MAX(a, b) ((a) > (b) ? (a) : (b))
#define MIN(a, b) ((a) < (b) ? (a) : (b))

// Variable swap (without temporary variable)
#define SWAP(a, b) do { typeof(a) temp = a; a = b; b = temp; } while(0)

// Compile-time assertion
#define STATIC_ASSERT(condition, message) \
    typedef char static_assertion_##message[(condition) ? 1 : -1]

// Variadic macros
#define DEBUG_PRINT(fmt, ...) \
    fprintf(stderr, "[DEBUG] %s:%d: " fmt "\n", __FILE__, __LINE__, ##__VA_ARGS__)

3. Modern C Language Features

/**
 * C11 modern features
 * Leverage new standards to improve code quality
 */

// Generic selection
#define generic_max(a, b) _Generic((a), \
    int: max_int, \
    float: max_float, \
    double: max_double \
)(a, b)

// Static assertion (C11)
_Static_assert(sizeof(int) >= 4, "int must be at least 4 bytes");

// Thread-local storage (C11)
_Thread_local int thread_var;

Advanced Memory Management Techniques

1. Memory Pool Design

/**
 * Memory pool implementation
 * Provides efficient memory allocation and recycling
 */
typedef struct {
    void *memory;
    size_t size;
    size_t used;
    size_t block_size;
} memory_pool_t;

memory_pool_t* create_pool(size_t size, size_t block_size) {
    memory_pool_t *pool = malloc(sizeof(memory_pool_t));
    pool->memory = malloc(size);
    pool->size = size;
    pool->used = 0;
    pool->block_size = block_size;
    return pool;
}

void* pool_alloc(memory_pool_t *pool, size_t size) {
    if (pool->used + size > pool->size) return NULL;
    void *ptr = (char*)pool->memory + pool->used;
    pool->used += size;
    return ptr;
}

2. Smart Pointer Simulation

/**
 * Smart pointer simulation system
 * Implements reference-counted automatic memory management
 */

#include <stdatomic.h>

typedef struct {
    void *ptr;
    void (*deleter)(void*);
    atomic_int *ref_count;
} smart_ptr_t;

smart_ptr_t make_smart_ptr(void *ptr, void (*deleter)(void*)) {
    smart_ptr_t sp = {ptr, deleter, malloc(sizeof(atomic_int))};
    atomic_init(sp.ref_count, 1);
    return sp;
}

smart_ptr_t smart_ptr_copy(smart_ptr_t sp) {
    atomic_fetch_add(sp.ref_count, 1);
    return sp;
}

void smart_ptr_free(smart_ptr_t *sp) {
    if (atomic_fetch_sub(sp->ref_count, 1) == 1) {
        sp->deleter(sp->ptr);
        free(sp->ref_count);
    }
}

3. Memory Alignment

/**
 * Memory alignment utilities
 * Ensures proper alignment of data structures in memory
 */

// C11 alignment
_Alignas(16) char aligned_buffer[256];

// Manual alignment
#define ALIGN_UP(x, align) (((x) + (align) - 1) & ~((align) - 1))
#define IS_ALIGNED(x, align) (((x) & ((align) - 1)) == 0)

void* aligned_malloc(size_t size, size_t alignment) {
    void *ptr = malloc(size + alignment - 1 + sizeof(void*));
    if (!ptr) return NULL;
    
    void **aligned_ptr = (void**)(((uintptr_t)ptr + sizeof(void*) + alignment - 1) & ~(alignment - 1));
    aligned_ptr[-1] = ptr;
    return aligned_ptr;
}

Function Pointers and Callback Mechanisms

1. Object-Oriented Style Programming

/**
 * Virtual function table simulation
 * Implements object-oriented programming in C
 */

// Virtual function table simulation
typedef struct {
    void (*destroy)(void *self);
    void (*print)(void *self);
    int (*compare)(void *self, void *other);
} vtable_t;

typedef struct {
    vtable_t *vtable;
    // Concrete data
} object_t;

// Polymorphic invocation
#define CALL_METHOD(obj, method, ...) \
    ((obj)->vtable->method((obj), ##__VA_ARGS__))

2. State Machine Implementation

/**
 * State machine implementation
 * Provides flexible state management mechanism
 */

typedef enum {
    STATE_IDLE,
    STATE_RUNNING,
    STATE_PAUSED,
    STATE_STOPPED
} state_t;

typedef struct {
    state_t current_state;
    int (*handlers[4])(void *context, int event);
} state_machine_t;

int handle_idle(void *context, int event) {
    switch (event) {
        case EVENT_START:
            return STATE_RUNNING;
        default:
            return STATE_IDLE;
    }
}

3. Plugin System Design

/**
 * Plugin system design
 * Supports dynamic loading and functionality extension
 */

typedef struct {
    const char *name;
    int version;
    int (*init)(void);
    void (*cleanup)(void);
    void* (*create_instance)(void);
} plugin_interface_t;

// Dynamic plugin loading
#ifdef _WIN32
    #include <windows.h>
    #define LOAD_PLUGIN(name) LoadLibrary(name)
    #define GET_SYMBOL(handle, name) GetProcAddress(handle, name)
#else
    #include <dlfcn.h>
    #define LOAD_PLUGIN(name) dlopen(name, RTLD_LAZY)
    #define GET_SYMBOL(handle, name) dlsym(handle, name)
#endif

Data Structure Design

1. Linked List Implementation

/**
 * Doubly linked list implementation
 * Provides efficient insertion and deletion operations
 */

typedef struct list_node {
    void *data;
    struct list_node *next;
    struct list_node *prev;
} list_node_t;

typedef struct {
    list_node_t head;
    size_t size;
    void (*destructor)(void*);
} list_t;

// Doubly linked list operations
void list_insert_after(list_t *list, list_node_t *node, void *data) {
    list_node_t *new_node = malloc(sizeof(list_node_t));
    new_node->data = data;
    new_node->next = node->next;
    new_node->prev = node;
    
    if (node->next) node->next->prev = new_node;
    node->next = new_node;
    list->size++;
}

2. Hash Table Implementation

/**
 * Hash table implementation
 * Provides fast key-value storage and retrieval
 */

typedef struct hash_entry {
    char *key;
    void *value;
    struct hash_entry *next;
} hash_entry_t;

typedef struct {
    hash_entry_t **buckets;
    size_t bucket_count;
    size_t size;
    unsigned int (*hash_func)(const char*);
} hash_table_t;

unsigned int djb2_hash(const char *str) {
    unsigned int hash = 5381;
    int c;
    while ((c = *str++)) hash = ((hash << 5) + hash) + c;
    return hash;
}

3. Ring Buffer

/**
 * Ring buffer implementation
 * Suitable for producer-consumer patterns
 */

typedef struct {
    char *buffer;
    size_t size;
    size_t read_pos;
    size_t write_pos;
    int full;
} ring_buffer_t;

int ring_buffer_write(ring_buffer_t *rb, const char *data, size_t len) {
    size_t available = rb->size - ring_buffer_size(rb);
    if (len > available) return -1;
    
    for (size_t i = 0; i < len; i++) {
        rb->buffer[rb->write_pos] = data[i];
        rb->write_pos = (rb->write_pos + 1) % rb->size;
        if (rb->write_pos == rb->read_pos) rb->full = 1;
    }
    return len;
}

Concurrency and Multithreading

1. Thread-Safe Data Structures

/**
 * Thread-safe counter
 * Provides atomic operations and conditional waiting
 */

#include <pthread.h>

typedef struct {
    int value;
    pthread_mutex_t mutex;
    pthread_cond_t cond;
} thread_safe_counter_t;

void counter_increment(thread_safe_counter_t *counter) {
    pthread_mutex_lock(&counter->mutex);
    counter->value++;
    pthread_cond_signal(&counter->cond);
    pthread_mutex_unlock(&counter->mutex);
}

int counter_wait_for(thread_safe_counter_t *counter, int target) {
    pthread_mutex_lock(&counter->mutex);
    while (counter->value < target) {
        pthread_cond_wait(&counter->cond, &counter->mutex);
    }
    pthread_mutex_unlock(&counter->mutex);
    return counter->value;
}

2. Read-Write Lock Implementation

/**
 * Read-write lock implementation
 * Supports multiple readers/single writer concurrency control
 */

typedef struct {
    pthread_mutex_t mutex;
    pthread_cond_t read_cond;
    pthread_cond_t write_cond;
    int readers;
    int writers;
    int waiting_writers;
} rwlock_t;

void rwlock_rdlock(rwlock_t *rwlock) {
    pthread_mutex_lock(&rwlock->mutex);
    while (rwlock->writers > 0 || rwlock->waiting_writers > 0) {
        pthread_cond_wait(&rwlock->read_cond, &rwlock->mutex);
    }
    rwlock->readers++;
    pthread_mutex_unlock(&rwlock->mutex);
}

3. Lock-Free Programming

/**
 * Lock-free programming tools
 * Implements high-performance concurrency using atomic operations
 */

#include <stdatomic.h>

typedef struct {
    atomic_int value;
} atomic_counter_t;

void atomic_counter_increment(atomic_counter_t *counter) {
    atomic_fetch_add(&counter->value, 1);
}

int atomic_counter_get(atomic_counter_t *counter) {
    return atomic_load(&counter->value);
}

Error Handling and Exception Mechanisms

1. Error Code System

/**
 * Error code system
 * Provides structured error handling mechanism
 */

typedef enum {
    ERROR_SUCCESS = 0,
    ERROR_INVALID_PARAM = -1,
    ERROR_OUT_OF_MEMORY = -2,
    ERROR_FILE_NOT_FOUND = -3,
    ERROR_PERMISSION_DENIED = -4
} error_code_t;

#define RETURN_ON_ERROR(expr) do { \
    error_code_t err = (expr); \
    if (err != ERROR_SUCCESS) return err; \
} while(0)

// Context-aware error handling
typedef struct {
    error_code_t code;
    const char *message;
    const char *file;
    int line;
} error_context_t;

2. Exception Simulation Mechanism

/**
 * Exception simulation mechanism
 * Implements exception handling using setjmp/longjmp
 */

#include <setjmp.h>

typedef struct {
    jmp_buf jump_buffer;
    int error_code;
    const char *error_message;
} exception_context_t;

static __thread exception_context_t *current_exception = NULL;

#define TRY \
    do { \
        exception_context_t __exception_ctx; \
        __exception_ctx.error_code = 0; \
        if (setjmp(__exception_ctx.jump_buffer) == 0) { \
            current_exception = &__exception_ctx;

#define CATCH(error_var) \
        } else { \
            error_var = current_exception->error_code;

#define END_TRY \
        } \
        current_exception = NULL; \
    } while(0);

#define THROW(code, message) \
    do { \
        if (current_exception) { \
            current_exception->error_code = code; \
            current_exception->error_message = message; \
            longjmp(current_exception->jump_buffer, 1); \
        } \
    } while(0)

3. Resource Management (RAII)

/**
 * RAII resource management
 * Ensures automatic resource cleanup
 */

typedef struct {
    void *resource;
    void (*cleanup)(void*);
} raii_guard_t;

#define RAII_VAR(type, name, init, cleanup_func) \
    type name = init; \
    raii_guard_t __guard_##name = {&name, (void(*)(void*))cleanup_func}; \
    __attribute__((cleanup(raii_cleanup))) raii_guard_t *__raii_##name = &__guard_##name;

static void raii_cleanup(raii_guard_t **guard) {
    if ((*guard)->resource && (*guard)->cleanup) {
        (*guard)->cleanup((*guard)->resource);
    }
}

Performance Optimization Techniques

1. Cache-Friendly Data Structures

/**
 * Cache-friendly data structures
 * Optimizes memory layout for better cache hit rates
 */

// Struct packing optimization
struct __attribute__((packed)) packed_struct {
    char a;
    int b;
    short c;
};

// Cache line alignment
#define CACHE_LINE_SIZE 64
struct __attribute__((aligned(CACHE_LINE_SIZE))) cache_aligned_struct {
    int data[16];
};

2. Branch Prediction Optimization

/**
 * Branch prediction optimization
 * Uses compiler hints to improve execution efficiency
 */

// Static branch prediction
#define likely(x) __builtin_expect(!!(x), 1)
#define unlikely(x) __builtin_expect(!!(x), 0)

void optimized_function(int *array, size_t size) {
    if (unlikely(size == 0)) return;
    
    for (size_t i = 0; likely(i < size); i++) {
        process_element(array[i]);
    }
}

3. Inline Assembly Optimization

/**
 * Inline assembly optimization
 * Directly uses CPU instructions for performance gains
 */

// Read Time-Stamp Counter
static inline uint64_t rdtsc(void) {
    uint32_t lo, hi;
    __asm__ __volatile__("rdtsc" : "=a" (lo), "=d" (hi));
    return ((uint64_t)hi << 32) | lo;
}

// Memory barrier
#define MEMORY_BARRIER() __asm__ __volatile__("" ::: "memory")

4. SIMD Optimization

/**
 * SIMD optimization
 * Leverages vector instructions for parallel data processing
 */

#ifdef __SSE2__
#include <emmintrin.h>

void vector_add(float *a, float *b, float *result, size_t n) {
    size_t i = 0;
    for (; i + 4 <= n; i += 4) {
        __m128 va = _mm_load_ps(&a[i]);
        __m128 vb = _mm_load_ps(&b[i]);
        __m128 vr = _mm_add_ps(va, vb);
        _mm_store_ps(&result[i], vr);
    }
    // Process remaining elements
    for (; i < n; i++) {
        result[i] = a[i] + b[i];
    }
}
#endif

Debugging and Testing Techniques

1. Debug Macros

/**
 * Debugging utility macros
 * Provides convenient debugging and profiling capabilities
 */

#ifdef DEBUG
    #define DBG_PRINT(fmt, ...) \
        fprintf(stderr, "[DEBUG] %s:%d: " fmt "\n", __FILE__, __LINE__, ##__VA_ARGS__)
    #define ASSERT(condition) \
        do { \
            if (!(condition)) { \
                fprintf(stderr, "Assertion failed: %s at %s:%d\n", \
                        #condition, __FILE__, __LINE__); \
                abort(); \
            } \
        } while(0)
#else
    #define DBG_PRINT(fmt, ...) do {} while(0)
    #define ASSERT(condition) do {} while(0)
#endif

// Performance timing
#define TIME_IT(code, result_var) \
    do { \
        clock_t start = clock(); \
        code; \
        result_var = ((double)(clock() - start)) / CLOCKS_PER_SEC; \
    } while(0)

2. Unit Testing Framework

/**
 * Unit testing framework
 * Provides structured testing support
 */

typedef struct {
    const char *name;
    void (*test_func)(void);
    int passed;
    int failed;
} test_case_t;

#define TEST_CASE(name) \
    static void test_##name(void); \
    static test_case_t test_case_##name = {#name, test_##name, 0, 0}; \
    static void test_##name(void)

#define ASSERT_EQ(expected, actual) \
    do { \
        if ((expected) != (actual)) { \
            fprintf(stderr, "Assertion failed: %s != %s at %s:%d\n", \
                    #expected, #actual, __FILE__, __LINE__); \
            current_test->failed++; \
        } else { \
            current_test->passed++; \
        } \
    } while(0)

3. Memory Leak Detection

/**
 * Memory leak detection
 * Tracks memory allocations and deallocations
 */

#ifdef DEBUG_MEMORY
static size_t total_allocated = 0;
static size_t allocation_count = 0;

void* debug_malloc(size_t size, const char *file, int line) {
    void *ptr = malloc(size + sizeof(size_t));
    if (ptr) {
        *(size_t*)ptr = size;
        total_allocated += size;
        allocation_count++;
        printf("ALLOC: %zu bytes at %s:%d\n", size, file, line);
        return (char*)ptr + sizeof(size_t);
    }
    return NULL;
}

void debug_free(void *ptr, const char *file, int line) {
    if (ptr) {
        size_t *size_ptr = (size_t*)((char*)ptr - sizeof(size_t));
        total_allocated -= *size_ptr;
        allocation_count--;
        printf("FREE: %zu bytes at %s:%d\n", *size_ptr, file, line);
        free(size_ptr);
    }
}

#define malloc(size) debug_malloc(size, __FILE__, __LINE__)
#define free(ptr) debug_free(ptr, __FILE__, __LINE__)
#endif

Cross-Platform Programming

1. Platform Abstraction Layer

/**
 * Platform abstraction layer
 * Provides unified cross-platform interfaces
 */

// Thread abstraction
#ifdef _WIN32
    #include <windows.h>
    typedef HANDLE thread_t;
    typedef CRITICAL_SECTION mutex_t;
    #define THREAD_CREATE(thread, func, arg) \
        (thread = CreateThread(NULL, 0, (LPTHREAD_START_ROUTINE)func, arg, 0, NULL))
    #define THREAD_JOIN(thread) WaitForSingleObject(thread, INFINITE)
    #define MUTEX_INIT(mutex) InitializeCriticalSection(mutex)
    #define MUTEX_LOCK(mutex) EnterCriticalSection(mutex)
    #define MUTEX_UNLOCK(mutex) LeaveCriticalSection(mutex)
#else
    #include <pthread.h>
    typedef pthread_t thread_t;
    typedef pthread_mutex_t mutex_t;
    #define THREAD_CREATE(thread, func, arg) pthread_create(&thread, NULL, func, arg)
    #define THREAD_JOIN(thread) pthread_join(thread, NULL)
    #define MUTEX_INIT(mutex) pthread_mutex_init(mutex, NULL)
    #define MUTEX_LOCK(mutex) pthread_mutex_lock(mutex)
    #define MUTEX_UNLOCK(mutex) pthread_mutex_unlock(mutex)
#endif

2. File Path Handling

/**
 * File path handling
 * Provides cross-platform path operations
 */

#ifdef _WIN32
    #define PATH_SEPARATOR '\\'
    #define PATH_SEPARATOR_STR "\\"
#else
    #define PATH_SEPARATOR '/'
    #define PATH_SEPARATOR_STR "/"
#endif

char* join_path(const char *dir, const char *file) {
    size_t dir_len = strlen(dir);
    size_t file_len = strlen(file);
    char *result = malloc(dir_len + file_len + 2);
    
    strcpy(result, dir);
    if (dir[dir_len - 1] != PATH_SEPARATOR) {
        strcat(result, PATH_SEPARATOR_STR);
    }
    strcat(result, file);
    return result;
}

3. Endianness Handling

/**
 * Endianness handling
 * Ensures data correctness during network transmission
 */

// Network byte order conversion
#if defined(__BYTE_ORDER__) && __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
    #define IS_BIG_ENDIAN 1
#else
    #define IS_BIG_ENDIAN 0
#endif

static inline uint32_t swap_endian_32(uint32_t val) {
    return ((val & 0x000000FF) << 24) |
           ((val & 0x0000FF00) << 8)  |
           ((val & 0x00FF0000) >> 8)  |
           ((val & 0xFF000000) >> 24);
}

#define hton32(x) (IS_BIG_ENDIAN ? (x) : swap_endian_32(x))
#define ntoh32(x) hton32(x)

Secure Programming Practices

1. Buffer Overflow Protection

/**
 * Buffer overflow protection
 * Provides safe string manipulation functions
 */

// Safe string operations
size_t safe_strncpy(char *dest, size_t dest_size, const char *src, size_t count) {
    if (dest_size == 0) return 0;
    
    size_t copy_len = (count < dest_size - 1) ? count : dest_size - 1;
    memcpy(dest, src, copy_len);
    dest[copy_len] = '\0';
    return copy_len;
}

// Formatted string safety checks
#define SAFE_PRINTF(buffer, size, format, ...) \
    do { \
        int __result = snprintf(buffer, size, format, ##__VA_ARGS__); \
        if (__result < 0 || (size_t)__result >= size) { \
            /* Handle overflow */ \
            buffer[size - 1] = '\0'; \
        } \
    } while(0)

2. Input Validation

/**
 * Input validation
 * Prevents security issues caused by malicious input
 */

// Integer overflow check
static inline int safe_add(int a, int b, int *result) {
    if ((b > 0 && a > INT_MAX - b) || (b < 0 && a < INT_MIN - b)) {
        return -1; // Overflow
    }
    *result = a + b;
    return 0;
}

// Pointer validation
#define VALIDATE_PTR(ptr) \
    do { \
        if (!(ptr)) { \
            return ERROR_INVALID_PARAM; \
        } \
    } while(0)

3. Secure Random Numbers

/**
 * Secure random number generation
 * Provides cryptographically secure random numbers
 */

#include <time.h>
#include <stdlib.h>

// Cryptographically secure random numbers (requires platform support)
#ifdef __linux__
    #include <sys/random.h>
    int secure_random_bytes(void *buf, size_t len) {
        return getrandom(buf, len, 0) == (ssize_t)len ? 0 : -1;
    }
#else
    // Simple pseudo-random number generator
    static unsigned long long rand_state = 1;
    
    void srand64(unsigned long long seed) {
        rand_state = seed;
    }
    
    unsigned long long rand64(void) {
        rand_state = rand_state * 6364136223846793005ULL + 1;
        return rand_state;
    }
#endif

Comprehensive Demonstration Examples

Event-Driven Architecture Demo

/**
 * Event-Driven Architecture - Event Type Definitions
 * Used for building flexible event handling systems
 */
typedef enum {
    EVENT_NONE = 0,
    EVENT_TIMER,
    EVENT_NETWORK,
    EVENT_USER,
    EVENT_SYSTEM
} event_type_t;

/**
 * Event structure
 * Contains event type, timestamp, and user data
 */
typedef struct {
    event_type_t type;
    uint64_t timestamp;
    void *data;
    size_t data_size;
} event_t;

/**
 * Event handler function pointer type
 * @param event Event pointer
 * @param context User context
 * @return Processing result
 */
typedef int (*event_handler_t)(event_t *event, void *context);

/**
 * Event listener structure
 * Stores event type and corresponding handler
 */
typedef struct {
    event_type_t type;
    event_handler_t handler;
    void *context;
    int priority;  // Processing priority
} event_listener_t;

/**
 * Event loop structure
 * Manages event queue and listeners
 */
typedef struct {
    event_listener_t *listeners;
    size_t listener_count;
    size_t listener_capacity;
    
    event_t *event_queue;
    size_t queue_head;
    size_t queue_tail;
    size_t queue_size;
    size_t queue_capacity;
    
    int running;
    pthread_mutex_t mutex;
    pthread_cond_t cond;
} event_loop_t;

// [Implementation code continues...]

Lock-Free Queue Implementation

/**
 * Lock-free queue implementation
 * Implements thread-safe lock-free queue using CAS operations
 */

#include <stdatomic.h>

/**
 * Queue node structure
 */
typedef struct queue_node {
    void *data;
    _Atomic(struct queue_node*) next;
} queue_node_t;

/**
 * Lock-free queue structure
 */
typedef struct {
    _Atomic(queue_node_t*) head;
    _Atomic(queue_node_t*) tail;
    atomic_size_t size;
} lockfree_queue_t;

// [Implementation code continues...]

Cache-Friendly Data Structures

/**
 * Cache-friendly data structure implementation
 * Optimizes memory layout to improve cache hit rates
 */

/**
 * Cache line size definition
 */
#define CACHE_LINE_SIZE 64

/**
 * Cache alignment macro
 */
#define CACHE_ALIGNED __attribute__((aligned(CACHE_LINE_SIZE)))

/**
 * SoA (Structure of Arrays) vector structure
 * Separates related data storage to improve cache efficiency
 */
typedef struct {
    float *x;           // X-coordinate array
    float *y;           // Y-coordinate array
    float *z;           // Z-coordinate array
    int *id;            // ID array
    size_t capacity;    // Capacity
    size_t size;        // Current size
    char padding[CACHE_LINE_SIZE - sizeof(size_t)*2 - sizeof(char*)*4]; // Padding to cache line boundary
} soa_vector_t;

// [Implementation code continues...]

Secure String Operations Library

/**
 * Secure string operations library
 * Provides buffer-overflow-safe string functions
 */

#include <string.h>
#include <stdio.h>
#include <stdarg.h>

/**
 * Secure string structure
 * Contains length information to prevent overflows
 */
typedef struct {
    char *data;
    size_t length;
    size_t capacity;
    int is_secure;  // Whether security checks are enabled
} secure_string_t;

// [Implementation code continues...]

Comprehensive Demo Function

/**
 * Event-Driven Architecture Demo Example
 */
void demo_event_driven_architecture() {
    printf("=== Event-Driven Architecture Demo ===\n");
    
    // Create event loop
    event_loop_t *loop = event_loop_create(100);
    if (!loop) {
        printf("Failed to create event loop\n");
        return;
    }
    
    // Add event listeners
    event_loop_add_listener(loop, EVENT_TIMER, timer_handler, NULL, 0);
    event_loop_add_listener(loop, EVENT_NETWORK, network_handler, NULL, 0);
    event_loop_add_listener(loop, EVENT_USER, user_handler, NULL, 0);
    
    // Start event loop thread
    pthread_t loop_thread;
    pthread_create(&loop_thread, NULL, (void*(*)(void*))event_loop_run, loop);
    
    // Post some test events
    for (int i = 0; i < 5; i++) {
        event_t event = {0};
        event.timestamp = time(NULL);
        
        // Post different event types
        switch (i % 3) {
            case 0:
                event.type = EVENT_TIMER;
                printf("Posting timer event %d\n", i);
                break;
            case 1: {
                event.type = EVENT_NETWORK;
                const char *msg = "Hello Network!";
                event.data = strdup(msg);
                event.data_size = strlen(msg);
                printf("Posting network event %d\n", i);
                break;
            }
            case 2:
                event.type = EVENT_USER;
                event.data = malloc(sizeof(int));
                *(int*)event.data = i;
                event.data_size = sizeof(int);
                printf("Posting user event %d\n", i);
                break;
        }
        
        event_loop_post(loop, &event);
        sleep(1);
    }
    
    // Cleanup event data
    sleep(2);
    
    // Stop and destroy event loop
    event_loop_stop(loop);
    pthread_join(loop_thread, NULL);
    event_loop_destroy(loop);
    
    printf("=== Demo Complete ===\n\n");
}

// [Other demo functions continue...]

Appendix: Best Practices Summary

Coding Standards

Naming Conventions: Use clear names, avoid abbreviations
Comment Style: Use Doxygen-style comments
Error Handling: Always check return values
Memory Management: Follow RAII principles
Thread Safety: Clearly identify thread-safe functions

Performance Optimization Principles

Measure Before Optimizing: Use profiling tools
Algorithm First: Choose appropriate data structures and algorithms
Avoid Premature Optimization: Maintain code readability
Cache-Friendly: Consider data locality
Compiler Optimization: Use compiler optimization flags appropriately

Secure Coding Principles

Input Validation: Never trust external input
Bounds Checking: Prevent buffer overflows
Principle of Least Privilege: Use minimum necessary privileges
Safe Functions: Use secure string functions
Code Reviews: Conduct regular security code reviews

This comprehensive guide to advanced C programming techniques covers all important aspects from basic macros to complex concurrent programming, providing rich code examples and best practices to help developers write high-quality, high-performance, and secure C code.

发表在 linux文章 | 留下评论

C语言高级编程技巧与最佳实践-完整版

发表于2025-08-06由麦芽爸

C语言高级编程技巧与最佳实践 – 完整版

宏定义与预处理技巧

1. 条件编译与平台检测

/**
 * 平台和编译器检测
 * 用于条件编译和跨平台兼容性
 */
#if defined(_WIN32) || defined(_WIN64)
    #define PLATFORM_WINDOWS
#elif defined(__linux__)
    #define PLATFORM_LINUX
#elif defined(__APPLE__)
    #define PLATFORM_MACOS
#endif

// 编译器检测
#if defined(__GNUC__)
    #define COMPILER_GCC
#elif defined(_MSC_VER)
    #define COMPILER_MSVC
#endif

// 版本检测
#if __STDC_VERSION__ >= 201112L
    #define C11_SUPPORTED
#endif

2. 强大的宏技巧

/**
 * 高级宏定义集合
 * 提供类型安全和便捷的宏工具
 */

// 字符串化和连接
#define STRINGIFY(x) #x
#define TOSTRING(x) STRINGIFY(x)
#define CONCAT(a, b) a##b

// 获取数组长度
#define ARRAY_SIZE(arr) (sizeof(arr) / sizeof((arr)[0]))

// 容器of宏（从成员指针获取容器指针）
#define container_of(ptr, type, member) ({          \
    void *__mptr = (void *)(ptr);                    \
    ((type *)(__mptr - offsetof(type, member))); })

// 最大最小值
#define MAX(a, b) ((a) > (b) ? (a) : (b))
#define MIN(a, b) ((a) < (b) ? (a) : (b))

// 交换变量（不使用临时变量）
#define SWAP(a, b) do { typeof(a) temp = a; a = b; b = temp; } while(0)

// 编译时断言
#define STATIC_ASSERT(condition, message) \
    typedef char static_assertion_##message[(condition) ? 1 : -1]

// 可变参数宏
#define DEBUG_PRINT(fmt, ...) \
    fprintf(stderr, "[DEBUG] %s:%d: " fmt "\n", __FILE__, __LINE__, ##__VA_ARGS__)

3. 现代C语言特性

/**
 * C11现代特性使用
 * 利用新标准提高代码质量
 */

// 泛型选择
#define generic_max(a, b) _Generic((a), \
    int: max_int, \
    float: max_float, \
    double: max_double \
)(a, b)

// 静态断言（C11）
_Static_assert(sizeof(int) >= 4, "int must be at least 4 bytes");

// 线程局部存储（C11）
_Thread_local int thread_var;

内存管理高级技巧

1. 内存池设计

/**
 * 内存池实现
 * 提供高效的内存分配和回收机制
 */
typedef struct {
    void *memory;
    size_t size;
    size_t used;
    size_t block_size;
} memory_pool_t;

memory_pool_t* create_pool(size_t size, size_t block_size) {
    memory_pool_t *pool = malloc(sizeof(memory_pool_t));
    pool->memory = malloc(size);
    pool->size = size;
    pool->used = 0;
    pool->block_size = block_size;
    return pool;
}

void* pool_alloc(memory_pool_t *pool, size_t size) {
    if (pool->used + size > pool->size) return NULL;
    void *ptr = (char*)pool->memory + pool->used;
    pool->used += size;
    return ptr;
}

2. 智能指针模拟

/**
 * 智能指针模拟系统
 * 实现引用计数自动内存管理
 */

#include <stdatomic.h>

typedef struct {
    void *ptr;
    void (*deleter)(void*);
    atomic_int *ref_count;
} smart_ptr_t;

smart_ptr_t make_smart_ptr(void *ptr, void (*deleter)(void*)) {
    smart_ptr_t sp = {ptr, deleter, malloc(sizeof(atomic_int))};
    atomic_init(sp.ref_count, 1);
    return sp;
}

smart_ptr_t smart_ptr_copy(smart_ptr_t sp) {
    atomic_fetch_add(sp.ref_count, 1);
    return sp;
}

void smart_ptr_free(smart_ptr_t *sp) {
    if (atomic_fetch_sub(sp->ref_count, 1) == 1) {
        sp->deleter(sp->ptr);
        free(sp->ref_count);
    }
}

3. 内存对齐

/**
 * 内存对齐工具
 * 确保数据结构在内存中的正确对齐
 */

// C11对齐
_Alignas(16) char aligned_buffer[256];

// 手动对齐
#define ALIGN_UP(x, align) (((x) + (align) - 1) & ~((align) - 1))
#define IS_ALIGNED(x, align) (((x) & ((align) - 1)) == 0)

void* aligned_malloc(size_t size, size_t alignment) {
    void *ptr = malloc(size + alignment - 1 + sizeof(void*));
    if (!ptr) return NULL;
    
    void **aligned_ptr = (void**)(((uintptr_t)ptr + sizeof(void*) + alignment - 1) & ~(alignment - 1));
    aligned_ptr[-1] = ptr;
    return aligned_ptr;
}

函数指针与回调机制

1. 面向对象风格编程

/**
 * 虚函数表模拟
 * 实现C语言中的面向对象编程
 */

// 虚函数表模拟
typedef struct {
    void (*destroy)(void *self);
    void (*print)(void *self);
    int (*compare)(void *self, void *other);
} vtable_t;

typedef struct {
    vtable_t *vtable;
    // 具体数据
} object_t;

// 多态调用
#define CALL_METHOD(obj, method, ...) \
    ((obj)->vtable->method((obj), ##__VA_ARGS__))

2. 状态机实现

/**
 * 状态机实现
 * 提供灵活的状态管理机制
 */

typedef enum {
    STATE_IDLE,
    STATE_RUNNING,
    STATE_PAUSED,
    STATE_STOPPED
} state_t;

typedef struct {
    state_t current_state;
    int (*handlers[4])(void *context, int event);
} state_machine_t;

int handle_idle(void *context, int event) {
    switch (event) {
        case EVENT_START:
            return STATE_RUNNING;
        default:
            return STATE_IDLE;
    }
}

3. 插件系统设计

/**
 * 插件系统设计
 * 支持动态加载和扩展功能
 */

typedef struct {
    const char *name;
    int version;
    int (*init)(void);
    void (*cleanup)(void);
    void* (*create_instance)(void);
} plugin_interface_t;

// 动态加载插件
#ifdef _WIN32
    #include <windows.h>
    #define LOAD_PLUGIN(name) LoadLibrary(name)
    #define GET_SYMBOL(handle, name) GetProcAddress(handle, name)
#else
    #include <dlfcn.h>
    #define LOAD_PLUGIN(name) dlopen(name, RTLD_LAZY)
    #define GET_SYMBOL(handle, name) dlsym(handle, name)
#endif

数据结构设计

1. 链表实现

/**
 * 双向链表实现
 * 提供高效的插入和删除操作
 */

typedef struct list_node {
    void *data;
    struct list_node *next;
    struct list_node *prev;
} list_node_t;

typedef struct {
    list_node_t head;
    size_t size;
    void (*destructor)(void*);
} list_t;

// 双向链表操作
void list_insert_after(list_t *list, list_node_t *node, void *data) {
    list_node_t *new_node = malloc(sizeof(list_node_t));
    new_node->data = data;
    new_node->next = node->next;
    new_node->prev = node;
    
    if (node->next) node->next->prev = new_node;
    node->next = new_node;
    list->size++;
}

2. 哈希表实现

/**
 * 哈希表实现
 * 提供快速的键值对存储和检索
 */

typedef struct hash_entry {
    char *key;
    void *value;
    struct hash_entry *next;
} hash_entry_t;

typedef struct {
    hash_entry_t **buckets;
    size_t bucket_count;
    size_t size;
    unsigned int (*hash_func)(const char*);
} hash_table_t;

unsigned int djb2_hash(const char *str) {
    unsigned int hash = 5381;
    int c;
    while ((c = *str++)) hash = ((hash << 5) + hash) + c;
    return hash;
}

3. 环形缓冲区

/**
 * 环形缓冲区实现
 * 适用于生产者-消费者模式
 */

typedef struct {
    char *buffer;
    size_t size;
    size_t read_pos;
    size_t write_pos;
    int full;
} ring_buffer_t;

int ring_buffer_write(ring_buffer_t *rb, const char *data, size_t len) {
    size_t available = rb->size - ring_buffer_size(rb);
    if (len > available) return -1;
    
    for (size_t i = 0; i < len; i++) {
        rb->buffer[rb->write_pos] = data[i];
        rb->write_pos = (rb->write_pos + 1) % rb->size;
        if (rb->write_pos == rb->read_pos) rb->full = 1;
    }
    return len;
}

并发与多线程

1. 线程安全的数据结构

/**
 * 线程安全计数器
 * 提供原子操作和条件等待
 */

#include <pthread.h>

typedef struct {
    int value;
    pthread_mutex_t mutex;
    pthread_cond_t cond;
} thread_safe_counter_t;

void counter_increment(thread_safe_counter_t *counter) {
    pthread_mutex_lock(&counter->mutex);
    counter->value++;
    pthread_cond_signal(&counter->cond);
    pthread_mutex_unlock(&counter->mutex);
}

int counter_wait_for(thread_safe_counter_t *counter, int target) {
    pthread_mutex_lock(&counter->mutex);
    while (counter->value < target) {
        pthread_cond_wait(&counter->cond, &counter->mutex);
    }
    pthread_mutex_unlock(&counter->mutex);
    return counter->value;
}

2. 读写锁实现

/**
 * 读写锁实现
 * 支持多读单写的并发控制
 */

typedef struct {
    pthread_mutex_t mutex;
    pthread_cond_t read_cond;
    pthread_cond_t write_cond;
    int readers;
    int writers;
    int waiting_writers;
} rwlock_t;

void rwlock_rdlock(rwlock_t *rwlock) {
    pthread_mutex_lock(&rwlock->mutex);
    while (rwlock->writers > 0 || rwlock->waiting_writers > 0) {
        pthread_cond_wait(&rwlock->read_cond, &rwlock->mutex);
    }
    rwlock->readers++;
    pthread_mutex_unlock(&rwlock->mutex);
}

3. 无锁编程

/**
 * 无锁编程工具
 * 使用原子操作实现高性能并发
 */

#include <stdatomic.h>

typedef struct {
    atomic_int value;
} atomic_counter_t;

void atomic_counter_increment(atomic_counter_t *counter) {
    atomic_fetch_add(&counter->value, 1);
}

int atomic_counter_get(atomic_counter_t *counter) {
    return atomic_load(&counter->value);
}

错误处理与异常机制

1. 错误码系统

/**
 * 错误码系统
 * 提供结构化的错误处理机制
 */

typedef enum {
    ERROR_SUCCESS = 0,
    ERROR_INVALID_PARAM = -1,
    ERROR_OUT_OF_MEMORY = -2,
    ERROR_FILE_NOT_FOUND = -3,
    ERROR_PERMISSION_DENIED = -4
} error_code_t;

#define RETURN_ON_ERROR(expr) do { \
    error_code_t err = (expr); \
    if (err != ERROR_SUCCESS) return err; \
} while(0)

// 带上下文的错误处理
typedef struct {
    error_code_t code;
    const char *message;
    const char *file;
    int line;
} error_context_t;

2. 异常模拟机制

/**
 * 异常模拟机制
 * 使用setjmp/longjmp实现异常处理
 */

#include <setjmp.h>

typedef struct {
    jmp_buf jump_buffer;
    int error_code;
    const char *error_message;
} exception_context_t;

static __thread exception_context_t *current_exception = NULL;

#define TRY \
    do { \
        exception_context_t __exception_ctx; \
        __exception_ctx.error_code = 0; \
        if (setjmp(__exception_ctx.jump_buffer) == 0) { \
            current_exception = &__exception_ctx;

#define CATCH(error_var) \
        } else { \
            error_var = current_exception->error_code;

#define END_TRY \
        } \
        current_exception = NULL; \
    } while(0);

#define THROW(code, message) \
    do { \
        if (current_exception) { \
            current_exception->error_code = code; \
            current_exception->error_message = message; \
            longjmp(current_exception->jump_buffer, 1); \
        } \
    } while(0)

3. 资源管理RAII

/**
 * RAII资源管理
 * 确保资源的自动释放
 */

typedef struct {
    void *resource;
    void (*cleanup)(void*);
} raii_guard_t;

#define RAII_VAR(type, name, init, cleanup_func) \
    type name = init; \
    raii_guard_t __guard_##name = {&name, (void(*)(void*))cleanup_func}; \
    __attribute__((cleanup(raii_cleanup))) raii_guard_t *__raii_##name = &__guard_##name;

static void raii_cleanup(raii_guard_t **guard) {
    if ((*guard)->resource && (*guard)->cleanup) {
        (*guard)->cleanup((*guard)->resource);
    }
}

性能优化技巧

1. 缓存友好的数据结构

/**
 * 缓存友好的数据结构
 * 优化内存布局提高缓存命中率
 */

// 结构体打包优化
struct __attribute__((packed)) packed_struct {
    char a;
    int b;
    short c;
};

// 缓存行对齐
#define CACHE_LINE_SIZE 64
struct __attribute__((aligned(CACHE_LINE_SIZE))) cache_aligned_struct {
    int data[16];
};

2. 分支预测优化

/**
 * 分支预测优化
 * 使用编译器提示提高执行效率
 */

// 静态分支预测
#define likely(x) __builtin_expect(!!(x), 1)
#define unlikely(x) __builtin_expect(!!(x), 0)

void optimized_function(int *array, size_t size) {
    if (unlikely(size == 0)) return;
    
    for (size_t i = 0; likely(i < size); i++) {
        process_element(array[i]);
    }
}

3. 内联汇编优化

/**
 * 内联汇编优化
 * 直接使用CPU指令提高性能
 */

// 获取时间戳计数器
static inline uint64_t rdtsc(void) {
    uint32_t lo, hi;
    __asm__ __volatile__("rdtsc" : "=a" (lo), "=d" (hi));
    return ((uint64_t)hi << 32) | lo;
}

// 内存屏障
#define MEMORY_BARRIER() __asm__ __volatile__("" ::: "memory")

4. SIMD优化

/**
 * SIMD优化
 * 利用向量指令并行处理数据
 */

#ifdef __SSE2__
#include <emmintrin.h>

void vector_add(float *a, float *b, float *result, size_t n) {
    size_t i = 0;
    for (; i + 4 <= n; i += 4) {
        __m128 va = _mm_load_ps(&a[i]);
        __m128 vb = _mm_load_ps(&b[i]);
        __m128 vr = _mm_add_ps(va, vb);
        _mm_store_ps(&result[i], vr);
    }
    // 处理剩余元素
    for (; i < n; i++) {
        result[i] = a[i] + b[i];
    }
}
#endif

调试与测试技巧

1. 调试宏

/**
 * 调试工具宏
 * 提供便捷的调试和性能分析功能
 */

#ifdef DEBUG
    #define DBG_PRINT(fmt, ...) \
        fprintf(stderr, "[DEBUG] %s:%d: " fmt "\n", __FILE__, __LINE__, ##__VA_ARGS__)
    #define ASSERT(condition) \
        do { \
            if (!(condition)) { \
                fprintf(stderr, "Assertion failed: %s at %s:%d\n", \
                        #condition, __FILE__, __LINE__); \
                abort(); \
            } \
        } while(0)
#else
    #define DBG_PRINT(fmt, ...) do {} while(0)
    #define ASSERT(condition) do {} while(0)
#endif

// 性能计时
#define TIME_IT(code, result_var) \
    do { \
        clock_t start = clock(); \
        code; \
        result_var = ((double)(clock() - start)) / CLOCKS_PER_SEC; \
    } while(0)

2. 单元测试框架

/**
 * 单元测试框架
 * 提供结构化的测试支持
 */

typedef struct {
    const char *name;
    void (*test_func)(void);
    int passed;
    int failed;
} test_case_t;

#define TEST_CASE(name) \
    static void test_##name(void); \
    static test_case_t test_case_##name = {#name, test_##name, 0, 0}; \
    static void test_##name(void)

#define ASSERT_EQ(expected, actual) \
    do { \
        if ((expected) != (actual)) { \
            fprintf(stderr, "Assertion failed: %s != %s at %s:%d\n", \
                    #expected, #actual, __FILE__, __LINE__); \
            current_test->failed++; \
        } else { \
            current_test->passed++; \
        } \
    } while(0)

3. 内存泄漏检测

/**
 * 内存泄漏检测
 * 跟踪内存分配和释放
 */

#ifdef DEBUG_MEMORY
static size_t total_allocated = 0;
static size_t allocation_count = 0;

void* debug_malloc(size_t size, const char *file, int line) {
    void *ptr = malloc(size + sizeof(size_t));
    if (ptr) {
        *(size_t*)ptr = size;
        total_allocated += size;
        allocation_count++;
        printf("ALLOC: %zu bytes at %s:%d\n", size, file, line);
        return (char*)ptr + sizeof(size_t);
    }
    return NULL;
}

void debug_free(void *ptr, const char *file, int line) {
    if (ptr) {
        size_t *size_ptr = (size_t*)((char*)ptr - sizeof(size_t));
        total_allocated -= *size_ptr;
        allocation_count--;
        printf("FREE: %zu bytes at %s:%d\n", *size_ptr, file, line);
        free(size_ptr);
    }
}

#define malloc(size) debug_malloc(size, __FILE__, __LINE__)
#define free(ptr) debug_free(ptr, __FILE__, __LINE__)
#endif

跨平台编程

1. 平台抽象层

/**
 * 平台抽象层
 * 提供统一的跨平台接口
 */

// 线程抽象
#ifdef _WIN32
    #include <windows.h>
    typedef HANDLE thread_t;
    typedef CRITICAL_SECTION mutex_t;
    #define THREAD_CREATE(thread, func, arg) \
        (thread = CreateThread(NULL, 0, (LPTHREAD_START_ROUTINE)func, arg, 0, NULL))
    #define THREAD_JOIN(thread) WaitForSingleObject(thread, INFINITE)
    #define MUTEX_INIT(mutex) InitializeCriticalSection(mutex)
    #define MUTEX_LOCK(mutex) EnterCriticalSection(mutex)
    #define MUTEX_UNLOCK(mutex) LeaveCriticalSection(mutex)
#else
    #include <pthread.h>
    typedef pthread_t thread_t;
    typedef pthread_mutex_t mutex_t;
    #define THREAD_CREATE(thread, func, arg) pthread_create(&thread, NULL, func, arg)
    #define THREAD_JOIN(thread) pthread_join(thread, NULL)
    #define MUTEX_INIT(mutex) pthread_mutex_init(mutex, NULL)
    #define MUTEX_LOCK(mutex) pthread_mutex_lock(mutex)
    #define MUTEX_UNLOCK(mutex) pthread_mutex_unlock(mutex)
#endif

2. 文件路径处理

/**
 * 文件路径处理
 * 提供跨平台的路径操作
 */

#ifdef _WIN32
    #define PATH_SEPARATOR '\\'
    #define PATH_SEPARATOR_STR "\\"
#else
    #define PATH_SEPARATOR '/'
    #define PATH_SEPARATOR_STR "/"
#endif

char* join_path(const char *dir, const char *file) {
    size_t dir_len = strlen(dir);
    size_t file_len = strlen(file);
    char *result = malloc(dir_len + file_len + 2);
    
    strcpy(result, dir);
    if (dir[dir_len - 1] != PATH_SEPARATOR) {
        strcat(result, PATH_SEPARATOR_STR);
    }
    strcat(result, file);
    return result;
}

3. 字节序处理

/**
 * 字节序处理
 * 确保数据在网络传输中的正确性
 */

// 网络字节序转换
#if defined(__BYTE_ORDER__) && __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
    #define IS_BIG_ENDIAN 1
#else
    #define IS_BIG_ENDIAN 0
#endif

static inline uint32_t swap_endian_32(uint32_t val) {
    return ((val & 0x000000FF) << 24) |
           ((val & 0x0000FF00) << 8)  |
           ((val & 0x00FF0000) >> 8)  |
           ((val & 0xFF000000) >> 24);
}

#define hton32(x) (IS_BIG_ENDIAN ? (x) : swap_endian_32(x))
#define ntoh32(x) hton32(x)

安全编程实践

1. 缓冲区溢出防护

/**
 * 缓冲区溢出防护
 * 提供安全的字符串操作函数
 */

// 安全字符串操作
size_t safe_strncpy(char *dest, size_t dest_size, const char *src, size_t count) {
    if (dest_size == 0) return 0;
    
    size_t copy_len = (count < dest_size - 1) ? count : dest_size - 1;
    memcpy(dest, src, copy_len);
    dest[copy_len] = '\0';
    return copy_len;
}

// 格式化字符串安全检查
#define SAFE_PRINTF(buffer, size, format, ...) \
    do { \
        int __result = snprintf(buffer, size, format, ##__VA_ARGS__); \
        if (__result < 0 || (size_t)__result >= size) { \
            /* 处理溢出 */ \
            buffer[size - 1] = '\0'; \
        } \
    } while(0)

2. 输入验证

/**
 * 输入验证
 * 防止恶意输入导致的安全问题
 */

// 整数溢出检查
static inline int safe_add(int a, int b, int *result) {
    if ((b > 0 && a > INT_MAX - b) || (b < 0 && a < INT_MIN - b)) {
        return -1; // 溢出
    }
    *result = a + b;
    return 0;
}

// 指针验证
#define VALIDATE_PTR(ptr) \
    do { \
        if (!(ptr)) { \
            return ERROR_INVALID_PARAM; \
        } \
    } while(0)

3. 安全随机数

/**
 * 安全随机数生成
 * 提供密码学安全的随机数
 */

#include <time.h>
#include <stdlib.h>

// 密码学安全随机数（需要平台支持）
#ifdef __linux__
    #include <sys/random.h>
    int secure_random_bytes(void *buf, size_t len) {
        return getrandom(buf, len, 0) == (ssize_t)len ? 0 : -1;
    }
#else
    // 简单的伪随机数生成器
    static unsigned long long rand_state = 1;
    
    void srand64(unsigned long long seed) {
        rand_state = seed;
    }
    
    unsigned long long rand64(void) {
        rand_state = rand_state * 6364136223846793005ULL + 1;
        return rand_state;
    }
#endif

综合演示示例

事件驱动架构演示

/**
 * 事件驱动架构 - 事件类型定义
 * 用于构建灵活的事件处理系统
 */
typedef enum {
    EVENT_NONE = 0,
    EVENT_TIMER,
    EVENT_NETWORK,
    EVENT_USER,
    EVENT_SYSTEM
} event_type_t;

/**
 * 事件结构体
 * 包含事件类型、时间戳和用户数据
 */
typedef struct {
    event_type_t type;
    uint64_t timestamp;
    void *data;
    size_t data_size;
} event_t;

/**
 * 事件处理器函数指针类型
 * @param event 事件指针
 * @param context 用户上下文
 * @return 处理结果
 */
typedef int (*event_handler_t)(event_t *event, void *context);

/**
 * 事件监听器结构体
 * 存储事件类型和对应的处理器
 */
typedef struct {
    event_type_t type;
    event_handler_t handler;
    void *context;
    int priority;  // 处理优先级
} event_listener_t;

/**
 * 事件循环结构体
 * 管理事件队列和监听器
 */
typedef struct {
    event_listener_t *listeners;
    size_t listener_count;
    size_t listener_capacity;
    
    event_t *event_queue;
    size_t queue_head;
    size_t queue_tail;
    size_t queue_size;
    size_t queue_capacity;
    
    int running;
    pthread_mutex_t mutex;
    pthread_cond_t cond;
} event_loop_t;

/**
 * 创建事件循环
 * @param queue_capacity 事件队列容量
 * @return 事件循环指针
 */
event_loop_t* event_loop_create(size_t queue_capacity) {
    event_loop_t *loop = calloc(1, sizeof(event_loop_t));
    if (!loop) return NULL;
    
    loop->queue_capacity = queue_capacity;
    loop->event_queue = calloc(queue_capacity, sizeof(event_t));
    if (!loop->event_queue) {
        free(loop);
        return NULL;
    }
    
    loop->listeners = calloc(16, sizeof(event_listener_t));  // 初始监听器容量
    loop->listener_capacity = 16;
    
    pthread_mutex_init(&loop->mutex, NULL);
    pthread_cond_init(&loop->cond, NULL);
    
    return loop;
}

/**
 * 添加事件监听器
 * @param loop 事件循环
 * @param type 事件类型
 * @param handler 事件处理器
 * @param context 用户上下文
 * @param priority 处理优先级
 * @return 0成功，-1失败
 */
int event_loop_add_listener(event_loop_t *loop, event_type_t type,
                           event_handler_t handler, void *context, int priority) {
    if (!loop || !handler) return -1;
    
    pthread_mutex_lock(&loop->mutex);
    
    // 扩展监听器数组
    if (loop->listener_count >= loop->listener_capacity) {
        size_t new_capacity = loop->listener_capacity * 2;
        event_listener_t *new_listeners = realloc(loop->listeners, 
                                                 new_capacity * sizeof(event_listener_t));
        if (!new_listeners) {
            pthread_mutex_unlock(&loop->mutex);
            return -1;
        }
        loop->listeners = new_listeners;
        loop->listener_capacity = new_capacity;
    }
    
    // 添加新监听器
    event_listener_t *listener = &loop->listeners[loop->listener_count++];
    listener->type = type;
    listener->handler = handler;
    listener->context = context;
    listener->priority = priority;
    
    pthread_mutex_unlock(&loop->mutex);
    return 0;
}

/**
 * 发布事件
 * @param loop 事件循环
 * @param event 事件指针
 * @return 0成功，-1失败
 */
int event_loop_post(event_loop_t *loop, event_t *event) {
    if (!loop || !event) return -1;
    
    pthread_mutex_lock(&loop->mutex);
    
    // 检查队列是否已满
    if ((loop->queue_tail + 1) % loop->queue_capacity == loop->queue_head) {
        pthread_mutex_unlock(&loop->mutex);
        return -1;  // 队列已满
    }
    
    // 复制事件到队列
    event_t *queue_event = &loop->event_queue[loop->queue_tail];
    queue_event->type = event->type;
    queue_event->timestamp = event->timestamp;
    
    if (event->data && event->data_size > 0) {
        queue_event->data = malloc(event->data_size);
        if (queue_event->data) {
            memcpy(queue_event->data, event->data, event->data_size);
            queue_event->data_size = event->data_size;
        } else {
            queue_event->data_size = 0;
        }
    } else {
        queue_event->data = NULL;
        queue_event->data_size = 0;
    }
    
    loop->queue_tail = (loop->queue_tail + 1) % loop->queue_capacity;
    
    pthread_cond_signal(&loop->cond);
    pthread_mutex_unlock(&loop->mutex);
    
    return 0;
}

/**
 * 事件循环主函数
 * @param loop 事件循环
 */
void event_loop_run(event_loop_t *loop) {
    if (!loop) return;
    
    loop->running = 1;
    
    while (loop->running) {
        pthread_mutex_lock(&loop->mutex);
        
        // 等待事件
        while (loop->queue_head == loop->queue_tail && loop->running) {
            pthread_cond_wait(&loop->cond, &loop->mutex);
        }
        
        if (!loop->running) {
            pthread_mutex_unlock(&loop->mutex);
            break;
        }
        
        // 获取事件
        event_t event = loop->event_queue[loop->queue_head];
        loop->queue_head = (loop->queue_head + 1) % loop->queue_capacity;
        
        pthread_mutex_unlock(&loop->mutex);
        
        // 处理事件
        for (size_t i = 0; i < loop->listener_count; i++) {
            if (loop->listeners[i].type == event.type || 
                loop->listeners[i].type == EVENT_NONE) {  // EVENT_NONE监听所有事件
                loop->listeners[i].handler(&event, loop->listeners[i].context);
            }
        }
        
        // 清理事件数据
        if (event.data) {
            free(event.data);
        }
    }
}

/**
 * 停止事件循环
 * @param loop 事件循环
 */
void event_loop_stop(event_loop_t *loop) {
    if (!loop) return;
    
    pthread_mutex_lock(&loop->mutex);
    loop->running = 0;
    pthread_cond_signal(&loop->cond);
    pthread_mutex_unlock(&loop->mutex);
}

/**
 * 销毁事件循环
 * @param loop 事件循环
 */
void event_loop_destroy(event_loop_t *loop) {
    if (!loop) return;
    
    event_loop_stop(loop);
    
    if (loop->listeners) {
        free(loop->listeners);
    }
    
    // 清理事件队列中剩余的事件
    while (loop->queue_head != loop->queue_tail) {
        event_t *event = &loop->event_queue[loop->queue_head];
        if (event->data) {
            free(event->data);
        }
        loop->queue_head = (loop->queue_head + 1) % loop->queue_capacity;
    }
    
    if (loop->event_queue) {
        free(loop->event_queue);
    }
    
    pthread_mutex_destroy(&loop->mutex);
    pthread_cond_destroy(&loop->cond);
    
    free(loop);
}

无锁队列实现

/**
 * 无锁队列实现
 * 使用CAS操作实现线程安全的无锁队列
 */

#include <stdatomic.h>

/**
 * 队列节点结构
 */
typedef struct queue_node {
    void *data;
    _Atomic(struct queue_node*) next;
} queue_node_t;

/**
 * 无锁队列结构
 */
typedef struct {
    _Atomic(queue_node_t*) head;
    _Atomic(queue_node_t*) tail;
    atomic_size_t size;
} lockfree_queue_t;

/**
 * 创建无锁队列节点
 * @param data 节点数据
 * @return 节点指针
 */
static queue_node_t* create_queue_node(void *data) {
    queue_node_t *node = malloc(sizeof(queue_node_t));
    if (node) {
        node->data = data;
        atomic_init(&node->next, NULL);
    }
    return node;
}

/**
 * 创建无锁队列
 * @return 队列指针
 */
lockfree_queue_t* lockfree_queue_create() {
    lockfree_queue_t *queue = malloc(sizeof(lockfree_queue_t));
    if (!queue) return NULL;
    
    // 创建哨兵节点
    queue_node_t *dummy = create_queue_node(NULL);
    if (!dummy) {
        free(queue);
        return NULL;
    }
    
    atomic_init(&queue->head, dummy);
    atomic_init(&queue->tail, dummy);
    atomic_init(&queue->size, 0);
    
    return queue;
}

/**
 * 入队操作
 * @param queue 队列
 * @param data 数据
 * @return 0成功，-1失败
 */
int lockfree_queue_enqueue(lockfree_queue_t *queue, void *data) {
    if (!queue) return -1;
    
    queue_node_t *node = create_queue_node(data);
    if (!node) return -1;
    
    queue_node_t *prev_tail = NULL;
    queue_node_t *prev_tail_next = NULL;
    
    while (1) {
        prev_tail = atomic_load(&queue->tail);
        prev_tail_next = atomic_load(&prev_tail->next);
        
        // 检查tail是否一致
        if (prev_tail == atomic_load(&queue->tail)) {
            if (prev_tail_next == NULL) {
                // tail是最后一个节点，尝试链接新节点
                if (atomic_compare_exchange_weak(&prev_tail->next, &prev_tail_next, node)) {
                    break;  // 成功
                }
            } else {
                // tail不是最后一个节点，尝试推进tail
                atomic_compare_exchange_weak(&queue->tail, &prev_tail, prev_tail_next);
            }
        }
    }
    
    // 推进tail
    atomic_compare_exchange_weak(&queue->tail, &prev_tail, node);
    atomic_fetch_add(&queue->size, 1);
    
    return 0;
}

/**
 * 出队操作
 * @param queue 队列
 * @param data 输出参数：出队数据
 * @return 0成功，-1队列为空
 */
int lockfree_queue_dequeue(lockfree_queue_t *queue, void **data) {
    if (!queue || !data) return -1;
    
    queue_node_t *head = NULL;
    queue_node_t *tail = NULL;
    queue_node_t *next = NULL;
    
    while (1) {
        head = atomic_load(&queue->head);
        tail = atomic_load(&queue->tail);
        next = atomic_load(&head->next);
        
        // 检查head是否一致
        if (head == atomic_load(&queue->head)) {
            if (head == tail) {
                // 队列为空或只有一个哨兵节点
                if (next == NULL) {
                    *data = NULL;
                    return -1;  // 队列为空
                }
                // 队列正在变化，推进tail
                atomic_compare_exchange_weak(&queue->tail, &tail, next);
            } else {
                // 读取数据
                *data = next->data;
                // 尝试推进head
                if (atomic_compare_exchange_weak(&queue->head, &head, next)) {
                    atomic_fetch_sub(&queue->size, 1);
                    break;
                }
            }
        }
    }
    
    free(head);  // 释放旧的head节点
    return 0;
}

/**
 * 获取队列大小
 * @param queue 队列
 * @return 队列大小
 */
size_t lockfree_queue_size(lockfree_queue_t *queue) {
    return atomic_load(&queue->size);
}

/**
 * 销毁无锁队列
 * @param queue 队列
 */
void lockfree_queue_destroy(lockfree_queue_t *queue) {
    if (!queue) return;
    
    // 清空队列
    void *data;
    while (lockfree_queue_dequeue(queue, &data) == 0) {
        // 数据由调用者负责释放
    }
    
    // 释放哨兵节点
    queue_node_t *head = atomic_load(&queue->head);
    if (head) {
        free(head);
    }
    
    free(queue);
}

缓存友好的数据结构

/**
 * 缓存友好的数据结构实现
 * 优化内存布局以提高缓存命中率
 */

/**
 * 缓存行大小定义
 */
#define CACHE_LINE_SIZE 64

/**
 * 缓存对齐宏
 */
#define CACHE_ALIGNED __attribute__((aligned(CACHE_LINE_SIZE)))

/**
 * SoA (Structure of Arrays) 向量结构
 * 将相关数据分离存储以提高缓存效率
 */
typedef struct {
    float *x;           // X坐标数组
    float *y;           // Y坐标数组
    float *z;           // Z坐标数组
    int *id;            // ID数组
    size_t capacity;    // 容量
    size_t size;        // 当前大小
    char padding[CACHE_LINE_SIZE - sizeof(size_t)*2 - sizeof(char*)*4]; // 填充到缓存行边界
} soa_vector_t;

/**
 * AoS (Array of Structures) 向量结构
 * 传统结构体数组方式
 */
typedef struct {
    float x, y, z;
    int id;
} aos_point_t;

typedef struct {
    aos_point_t *points;
    size_t capacity;
    size_t size;
    char padding[CACHE_LINE_SIZE - sizeof(size_t)*2 - sizeof(void*)]; // 填充
} aos_vector_t;

/**
 * 创建SoA向量
 * @param initial_capacity 初始容量
 * @return SoA向量指针
 */
soa_vector_t* soa_vector_create(size_t initial_capacity) {
    soa_vector_t *vec = calloc(1, sizeof(soa_vector_t));
    if (!vec) return NULL;
    
    vec->capacity = initial_capacity;
    vec->x = malloc(sizeof(float) * initial_capacity);
    vec->y = malloc(sizeof(float) * initial_capacity);
    vec->z = malloc(sizeof(float) * initial_capacity);
    vec->id = malloc(sizeof(int) * initial_capacity);
    
    if (!vec->x || !vec->y || !vec->z || !vec->id) {
        soa_vector_destroy(vec);
        return NULL;
    }
    
    return vec;
}

/**
 * 创建AoS向量
 * @param initial_capacity 初始容量
 * @return AoS向量指针
 */
aos_vector_t* aos_vector_create(size_t initial_capacity) {
    aos_vector_t *vec = calloc(1, sizeof(aos_vector_t));
    if (!vec) return NULL;
    
    vec->capacity = initial_capacity;
    vec->points = malloc(sizeof(aos_point_t) * initial_capacity);
    if (!vec->points) {
        free(vec);
        return NULL;
    }
    
    return vec;
}

/**
 * SoA向量添加元素
 * @param vec SoA向量
 * @param x X坐标
 * @param y Y坐标
 * @param z Z坐标
 * @param id ID
 * @return 0成功，-1失败
 */
int soa_vector_push(soa_vector_t *vec, float x, float y, float z, int id) {
    if (!vec) return -1;
    
    // 检查是否需要扩容
    if (vec->size >= vec->capacity) {
        size_t new_capacity = vec->capacity * 2;
        
        float *new_x = realloc(vec->x, sizeof(float) * new_capacity);
        float *new_y = realloc(vec->y, sizeof(float) * new_capacity);
        float *new_z = realloc(vec->z, sizeof(float) * new_capacity);
        int *new_id = realloc(vec->id, sizeof(int) * new_capacity);
        
        if (!new_x || !new_y || !new_z || !new_id) {
            return -1;
        }
        
        vec->x = new_x;
        vec->y = new_y;
        vec->z = new_z;
        vec->id = new_id;
        vec->capacity = new_capacity;
    }
    
    size_t index = vec->size++;
    vec->x[index] = x;
    vec->y[index] = y;
    vec->z[index] = z;
    vec->id[index] = id;
    
    return 0;
}

/**
 * AoS向量添加元素
 * @param vec AoS向量
 * @param x X坐标
 * @param y Y坐标
 * @param z Z坐标
 * @param id ID
 * @return 0成功，-1失败
 */
int aos_vector_push(aos_vector_t *vec, float x, float y, float z, int id) {
    if (!vec) return -1;
    
    // 检查是否需要扩容
    if (vec->size >= vec->capacity) {
        size_t new_capacity = vec->capacity * 2;
        aos_point_t *new_points = realloc(vec->points, sizeof(aos_point_t) * new_capacity);
        if (!new_points) return -1;
        
        vec->points = new_points;
        vec->capacity = new_capacity;
    }
    
    aos_point_t *point = &vec->points[vec->size++];
    point->x = x;
    point->y = y;
    point->z = z;
    point->id = id;
    
    return 0;
}

/**
 * SoA向量批量处理（缓存友好）
 * @param vec SoA向量
 * @param processor 处理函数
 * @param context 用户上下文
 */
void soa_vector_process(soa_vector_t *vec, 
                       void (*processor)(float x, float y, float z, int id, void *context),
                       void *context) {
    if (!vec || !processor) return;
    
    // 分别处理每个数组，提高缓存命中率
    for (size_t i = 0; i < vec->size; i++) {
        processor(vec->x[i], vec->y[i], vec->z[i], vec->id[i], context);
    }
}

/**
 * AoS向量批量处理
 * @param vec AoS向量
 * @param processor 处理函数
 * @param context 用户上下文
 */
void aos_vector_process(aos_vector_t *vec,
                       void (*processor)(float x, float y, float z, int id, void *context),
                       void *context) {
    if (!vec || !processor) return;
    
    // 处理结构体数组
    for (size_t i = 0; i < vec->size; i++) {
        aos_point_t *point = &vec->points[i];
        processor(point->x, point->y, point->z, point->id, context);
    }
}

/**
 * 销毁SoA向量
 * @param vec SoA向量
 */
void soa_vector_destroy(soa_vector_t *vec) {
    if (!vec) return;
    
    if (vec->x) free(vec->x);
    if (vec->y) free(vec->y);
    if (vec->z) free(vec->z);
    if (vec->id) free(vec->id);
    free(vec);
}

/**
 * 销毁AoS向量
 * @param vec AoS向量
 */
void aos_vector_destroy(aos_vector_t *vec) {
    if (!vec) return;
    
    if (vec->points) free(vec->points);
    free(vec);
}

/**
 * 性能测试结构
 */
typedef struct {
    double soa_time;
    double aos_time;
    size_t elements_processed;
} performance_result_t;

安全字符串操作库

/**
 * 安全字符串操作库
 * 提供防止缓冲区溢出的安全字符串函数
 */

#include <string.h>
#include <stdio.h>
#include <stdarg.h>

/**
 * 安全字符串结构
 * 包含长度信息以防止溢出
 */
typedef struct {
    char *data;
    size_t length;
    size_t capacity;
    int is_secure;  // 是否启用安全检查
} secure_string_t;

/**
 * 创建安全字符串
 * @param initial_capacity 初始容量
 * @param enable_security 是否启用安全检查
 * @return 安全字符串指针
 */
secure_string_t* secure_string_create(size_t initial_capacity, int enable_security) {
    secure_string_t *str = calloc(1, sizeof(secure_string_t));
    if (!str) return NULL;
    
    str->data = malloc(initial_capacity + 1);  // +1 for null terminator
    if (!str->data) {
        free(str);
        return NULL;
    }
    
    str->data[0] = '\0';
    str->capacity = initial_capacity;
    str->is_secure = enable_security;
    
    return str;
}

/**
 * 从C字符串创建安全字符串
 * @param c_str C字符串
 * @param enable_security 是否启用安全检查
 * @return 安全字符串指针
 */
secure_string_t* secure_string_from_cstr(const char *c_str, int enable_security) {
    if (!c_str) return NULL;
    
    size_t len = strlen(c_str);
    secure_string_t *str = secure_string_create(len, enable_security);
    if (str) {
        strncpy(str->data, c_str, str->capacity);
        str->data[str->capacity] = '\0';
        str->length = strlen(str->data);
    }
    
    return str;
}

/**
 * 安全字符串追加
 * @param str 目标字符串
 * @param append_str 要追加的字符串
 * @return 0成功，-1失败
 */
int secure_string_append(secure_string_t *str, const char *append_str) {
    if (!str || !append_str) return -1;
    
    size_t append_len = strlen(append_str);
    size_t new_length = str->length + append_len;
    
    // 检查是否需要扩容
    if (new_length >= str->capacity) {
        if (str->is_secure) {
            // 安全模式：拒绝超出容量的操作
            return -1;
        } else {
            // 非安全模式：自动扩容
            size_t new_capacity = (new_length + 1) * 2;
            char *new_data = realloc(str->data, new_capacity + 1);
            if (!new_data) return -1;
            
            str->data = new_data;
            str->capacity = new_capacity;
        }
    }
    
    // 执行追加
    strncat(str->data, append_str, str->capacity - str->length);
    str->length = strlen(str->data);
    
    return 0;
}

/**
 * 安全格式化字符串
 * @param str 目标字符串
 * @param format 格式字符串
 * @param ... 可变参数
 * @return 写入的字符数，-1失败
 */
int secure_string_printf(secure_string_t *str, const char *format, ...) {
    if (!str || !format) return -1;
    
    va_list args;
    va_start(args, format);
    
    // 首先计算需要的空间
    va_list args_copy;
    va_copy(args_copy, args);
    int needed = vsnprintf(NULL, 0, format, args_copy);
    va_end(args_copy);
    
    if (needed < 0) {
        va_end(args);
        return -1;
    }
    
    // 检查容量
    if ((size_t)needed >= str->capacity - str->length) {
        if (str->is_secure) {
            va_end(args);
            return -1;  // 容量不足
        } else {
            // 自动扩容
            size_t new_capacity = str->length + needed + 1;
            char *new_data = realloc(str->data, new_capacity + 1);
            if (!new_data) {
                va_end(args);
                return -1;
            }
            
            str->data = new_data;
            str->capacity = new_capacity;
        }
    }
    
    // 执行格式化
    int written = vsnprintf(str->data + str->length, 
                           str->capacity - str->length, 
                           format, args);
    
    if (written >= 0) {
        str->length += written;
    }
    
    va_end(args);
    return written;
}

/**
 * 安全字符串比较
 * @param str1 字符串1
 * @param str2 字符串2
 * @return 比较结果
 */
int secure_string_compare(const secure_string_t *str1, const secure_string_t *str2) {
    if (!str1 && !str2) return 0;
    if (!str1) return -1;
    if (!str2) return 1;
    
    return strcmp(str1->data, str2->data);
}

/**
 * 获取C字符串
 * @param str 安全字符串
 * @return C字符串指针
 */
const char* secure_string_cstr(const secure_string_t *str) {
    return str ? str->data : NULL;
}

/**
 * 获取字符串长度
 * @param str 安全字符串
 * @return 字符串长度
 */
size_t secure_string_length(const secure_string_t *str) {
    return str ? str->length : 0;
}

/**
 * 清空字符串
 * @param str 安全字符串
 */
void secure_string_clear(secure_string_t *str) {
    if (str && str->data) {
        str->data[0] = '\0';
        str->length = 0;
    }
}

/**
 * 销毁安全字符串
 * @param str 安全字符串
 */
void secure_string_destroy(secure_string_t *str) {
    if (!str) return;
    
    if (str->data) {
        // 安全清除内存
        memset(str->data, 0, str->capacity);
        free(str->data);
    }
    
    free(str);
}

/**
 * 安全字符串池
 * 管理多个安全字符串以提高性能
 */
typedef struct {
    secure_string_t **strings;
    size_t count;
    size_t capacity;
    pthread_mutex_t mutex;
} string_pool_t;

/**
 * 创建字符串池
 * @param initial_capacity 初始容量
 * @return 字符串池指针
 */
string_pool_t* string_pool_create(size_t initial_capacity) {
    string_pool_t *pool = calloc(1, sizeof(string_pool_t));
    if (!pool) return NULL;
    
    pool->strings = calloc(initial_capacity, sizeof(secure_string_t*));
    if (!pool->strings) {
        free(pool);
        return NULL;
    }
    
    pool->capacity = initial_capacity;
    pthread_mutex_init(&pool->mutex, NULL);
    
    return pool;
}

综合演示函数

/**
 * 事件驱动架构演示示例
 */
void demo_event_driven_architecture() {
    printf("=== 事件驱动架构演示 ===\n");
    
    // 创建事件循环
    event_loop_t *loop = event_loop_create(100);
    if (!loop) {
        printf("Failed to create event loop\n");
        return;
    }
    
    // 添加事件监听器
    event_loop_add_listener(loop, EVENT_TIMER, timer_handler, NULL, 0);
    event_loop_add_listener(loop, EVENT_NETWORK, network_handler, NULL, 0);
    event_loop_add_listener(loop, EVENT_USER, user_handler, NULL, 0);
    
    // 启动事件循环线程
    pthread_t loop_thread;
    pthread_create(&loop_thread, NULL, (void*(*)(void*))event_loop_run, loop);
    
    // 发布一些测试事件
    for (int i = 0; i < 5; i++) {
        event_t event = {0};
        event.timestamp = time(NULL);
        
        // 发布不同类型的事件
        switch (i % 3) {
            case 0:
                event.type = EVENT_TIMER;
                printf("Posting timer event %d\n", i);
                break;
            case 1: {
                event.type = EVENT_NETWORK;
                const char *msg = "Hello Network!";
                event.data = strdup(msg);
                event.data_size = strlen(msg);
                printf("Posting network event %d\n", i);
                break;
            }
            case 2:
                event.type = EVENT_USER;
                event.data = malloc(sizeof(int));
                *(int*)event.data = i;
                event.data_size = sizeof(int);
                printf("Posting user event %d\n", i);
                break;
        }
        
        event_loop_post(loop, &event);
        sleep(1);
    }
    
    // 清理事件数据
    sleep(2);
    
    // 停止并销毁事件循环
    event_loop_stop(loop);
    pthread_join(loop_thread, NULL);
    event_loop_destroy(loop);
    
    printf("=== 演示完成 ===\n\n");
}

/**
 * 无锁队列演示示例
 */
void demo_lockfree_queue() {
    printf("=== 无锁队列演示 ===\n");
    
    // 初始化
    queue = lockfree_queue_create();
    atomic_init(&items_produced, 0);
    atomic_init(&items_consumed, 0);
    
    if (!queue) {
        printf("Failed to create queue\n");
        return;
    }
    
    // 创建生产者和消费者线程
    pthread_t producers[NUM_PRODUCERS];
    pthread_t consumers[NUM_CONSUMERS];
    int producer_ids[NUM_PRODUCERS];
    int consumer_ids[NUM_CONSUMERS];
    
    // 启动生产者线程
    for (int i = 0; i < NUM_PRODUCERS; i++) {
        producer_ids[i] = i;
        pthread_create(&producers[i], NULL, producer_thread, &producer_ids[i]);
    }
    
    // 启动消费者线程
    for (int i = 0; i < NUM_CONSUMERS; i++) {
        consumer_ids[i] = i;
        pthread_create(&consumers[i], NULL, consumer_thread, &consumer_ids[i]);
    }
    
    // 等待所有线程完成
    for (int i = 0; i < NUM_PRODUCERS; i++) {
        pthread_join(producers[i], NULL);
    }
    
    for (int i = 0; i < NUM_CONSUMERS; i++) {
        pthread_join(consumers[i], NULL);
    }
    
    // 显示结果
    printf("Total produced: %d\n", atomic_load(&items_produced));
    printf("Total consumed: %d\n", atomic_load(&items_consumed));
    printf("Queue size: %zu\n", lockfree_queue_size(queue));
    
    // 清理
    lockfree_queue_destroy(queue);
    
    printf("=== 演示完成 ===\n\n");
}

/**
 * 缓存友好数据结构演示示例
 */
void demo_cache_friendly_structures() {
    printf("=== 缓存友好数据结构演示 ===\n");
    
    // 测试不同规模的数据
    size_t test_sizes[] = {1000, 10000, 100000, 1000000};
    int num_tests = sizeof(test_sizes) / sizeof(test_sizes[0]);
    
    printf("%-10s %-12s %-12s %-10s\n", "Elements", "SoA Time(s)", "AoS Time(s)", "Speedup");
    printf("------------------------------------------------\n");
    
    for (int i = 0; i < num_tests; i++) {
        performance_result_t result = test_performance(test_sizes[i]);
        
        double speedup = result.aos_time / result.soa_time;
        printf("%-10zu %-12.6f %-12.6f %-10.2fx\n", 
               result.elements_processed,
               result.soa_time,
               result.aos_time,
               speedup);
    }
    
    printf("=== 演示完成 ===\n\n");
}

/**
 * 安全字符串操作演示示例
 */
void demo_secure_strings() {
    printf("=== 安全字符串操作演示 ===\n");
    
    // 创建安全字符串（启用安全检查）
    secure_string_t *str1 = secure_string_create(20, 1);  // 安全模式
    secure_string_t *str2 = secure_string_from_cstr("Hello", 1);
    
    if (!str1 || !str2) {
        printf("Failed to create secure strings\n");
        return;
    }
    
    printf("Initial strings:\n");
    printf("str1: '%s' (length: %zu)\n", secure_string_cstr(str1), secure_string_length(str1));
    printf("str2: '%s' (length: %zu)\n", secure_string_cstr(str2), secure_string_length(str2));
    
    // 安全追加
    if (secure_string_append(str2, " World!") == 0) {
        printf("After append: '%s'\n", secure_string_cstr(str2));
    } else {
        printf("Append failed (security check)\n");
    }
    
    // 安全格式化
    if (secure_string_printf(str1, "Number: %d, String: %s", 42, "test") >= 0) {
        printf("Formatted string: '%s'\n", secure_string_cstr(str1));
    } else {
        printf("Format failed (security check)\n");
    }
    
    // 尝试超出容量的操作（在安全模式下会失败）
    printf("\nTesting security checks:\n");
    if (secure_string_append(str1, "This is a very long string that exceeds capacity") == -1) {
        printf("Security check prevented buffer overflow!\n");
    }
    
    // 字符串比较
    secure_string_t *str3 = secure_string_from_cstr("Hello World!", 1);
    printf("Comparison result: %d\n", secure_string_compare(str2, str3));
    
    // 清理
    secure_string_destroy(str1);
    secure_string_destroy(str2);
    secure_string_destroy(str3);
    
    printf("=== 演示完成 ===\n\n");
}

// 综合演示函数
void run_all_demos() {
    printf("C语言高级编程技巧演示\n");
    printf("=====================\n\n");
    
    // 运行所有演示
    demo_event_driven_architecture();
    demo_lockfree_queue();
    demo_cache_friendly_structures();
    demo_secure_strings();
    
    printf("所有演示完成！\n");
}

附录：最佳实践总结

编码规范

命名约定：使用清晰的命名，避免缩写
注释风格：使用Doxygen风格注释
错误处理：始终检查返回值
内存管理：遵循RAII原则
线程安全：明确标识线程安全函数

性能优化原则

先测量后优化：使用性能分析工具
算法优先：选择合适的数据结构和算法
避免过早优化：保持代码可读性
缓存友好：考虑数据局部性
编译器优化：合理使用编译器优化选项

安全编码原则

输入验证：永远不要信任外部输入
边界检查：防止缓冲区溢出
最小权限：使用最小必要权限
安全函数：使用安全的字符串函数
代码审查：定期进行安全代码审查

这份完整的C语言高级编程技巧指南涵盖了从基础宏定义到复杂并发编程的所有重要方面，提供了丰富的代码示例和最佳实践，帮助开发者编写高质量、高性能、安全的C代码。

C语言高级编程技巧, C语言最佳实践教程, C语言内存管理技巧, 函数指针与回调函数详解, C语言预处理指令使用方法, C语言高级编程指南, C语言宏定义优化技巧, C语言编程进阶教程, C语言高效编码技巧, C语言开发最佳实践

发表在 linux文章 | 留下评论

Python二进制文件编码探测工具

发表于2025-08-06由麦芽爸

Python二进制文件编码探测工具

背景
Python二进制文件编码探测工具，基于Python实现，精准识别文件编码，提升数据处理效率。实现基于python语言cchardet库的二进制文件分析程序，按照预设分段参数对文件进行读取和cchardet的文本编码探测。脚本具备跳过文件头n字节，按照m字节分段二进制文件及分段后数据连续4字节探测功能。
结果输出会展示每段的序号，偏移起始，片内置信度识别偏移字节，片大小，编码方式，置信度，高置信度提示信息字段；

Python二进制文件编码探测工具

如何使用脚本：

# 1. 基本用法：分析整个文件
python encoding_detector.py myfile.bin

# 2. 指定块大小
python encoding_detector.py -s 512 myfile.bin

# 3. 跳过每个块的前 10 个字节
python encoding_detector.py -s 100 -h 10 myfile.bin

# 4. 从文件偏移 1116 开始分析
python encoding_detector.py -s 100 -o 1116 ../ftp-pcap/ftp-utf8-long.pcap

# 5. 结合使用：从偏移 1000 开始，每块 256 字节，跳过每块前 20 字节
python encoding_detector.py -s 256 -h 20 -o 1000 myfile.bin

# 6. 通过管道输入
cat myfile.bin | python encoding_detector.py -s 512

Python脚本是实现

#!/usr/bin/env python3
import cchardet
import sys
import os

def print_hex(data, width=16):
    """以十六进制和ASCII形式打印字节数据"""
    for i in range(0, len(data), width):
        # 十六进制部分
        hex_part = ' '.join(f'{byte:02x}' for byte in data[i:i+width])
        # ASCII部分 (可打印字符或'.')
        ascii_part = ''.join(chr(byte) if 32 <= byte <= 126 else '.' for byte in data[i:i+width])
        # 打印地址偏移、十六进制和ASCII
        print(f'{i:08x}: {hex_part:<{width*3}} |{ascii_part}|')

def detect_chunks_from_file(filename, chunk_size=1024, from_head_bytes=0, from_file_offset=0):
    """
    将文件按指定大小切块，并对每个块进行编码检测。
    如果检测置信度为0，则尝试偏移1-4字节重新检测。
    from_file_offset: 从文件的哪个字节偏移开始读取。
    """
    if not os.path.exists(filename):
        print(f"Error: File '{filename}' does not exist.", file=sys.stderr)
        return

    try:
        file_size = os.path.getsize(filename)
        print(f"Analyzing file: {filename} (Total size: {file_size} bytes)")
        print(f"Chunk size: {chunk_size} bytes")
        if from_head_bytes > 0:
            print(f"Skipping first {from_head_bytes} bytes of each chunk for detection.")
        if from_file_offset > 0:
            print(f"Starting analysis from file offset: {from_file_offset}")
        print("-" * 50)

        with open(filename, 'rb') as f:
            # 定位到文件的起始偏移
            if from_file_offset > 0:
                f.seek(from_file_offset)
            
            chunk_number = 0
            while True:
                chunk_data = f.read(chunk_size)
                if not chunk_
                    break

                # 计算当前块在原始文件中的基础偏移量
                offset = from_file_offset + chunk_number * chunk_size

                # 裁剪用于检测的数据（跳过头部字节）
                detection_data = chunk_data[from_head_bytes:] if len(chunk_data) > from_head_bytes else b''

                # --- 初始检测 ---
                encoding = None
                confidence = 0.0
                offset_by_used = 0 # 记录最终使用的偏移量

                if len(detection_data) > 0:
                    try:
                        result = cchardet.detect(detection_data)
                        if isinstance(result, dict):
                            encoding = result.get('encoding')
                            temp_confidence = result.get('confidence')
                            if temp_confidence is None:
                                confidence = 0.0
                            else:
                                confidence = temp_confidence
                            
                            if encoding is not None and not isinstance(encoding, str):
                                print(f"Warning: Unexpected encoding type in chunk {chunk_number}: {type(encoding)}", file=sys.stderr)
                                encoding = str(encoding) if encoding is not None else None
                        else:
                            print(f"Warning: cchardet returned unexpected type in chunk {chunk_number}: {type(result)}", file=sys.stderr)
                    except Exception as e:
                        print(f"Warning: cchardet failed on chunk {chunk_number}: {e}", file=sys.stderr)
                        encoding = "Error"
                        confidence = 0.0

                # --- 偏移优化逻辑 ---
                max_offset_attempts = 4
                if confidence == 0.0 and len(detection_data) > max_offset_attempts:
                    for offset_by in range(1, max_offset_attempts + 1):
                        if len(detection_data) > offset_by:
                            adjusted_detection_data = detection_data[offset_by:]
                            if len(adjusted_detection_data) > 0:
                                try:
                                    adjusted_result = cchardet.detect(adjusted_detection_data)
                                    if isinstance(adjusted_result, dict):
                                        adjusted_confidence = adjusted_result.get('confidence')
                                        if adjusted_confidence is None:
                                            adjusted_confidence = 0.0
                                        
                                        if adjusted_confidence > confidence:
                                            encoding = adjusted_result.get('encoding')
                                            confidence = adjusted_confidence
                                            offset_by_used = offset_by # 记录使用的偏移量
                                            
                                            if confidence > 0.0:
                                                break
                                except Exception:
                                    pass
                        else:
                            break

                # --- 格式化输出 ---
                encoding_display = encoding if encoding is not None else "N/A"
                output_line = (f"Chunk {chunk_number:4d} | Offset {offset:8d} | "
                               f"offset_by {offset_by_used:2d} | "
                               f"Size {len(chunk_data):4d} | "
                               f"Encoding: {encoding_display:>12} | "
                               f"Confidence: {confidence:6.4f}")
                
                # 可以根据置信度调整输出格式，例如高亮高置信度结果
                if confidence >= 0.75:
                     print(output_line) # 或用不同颜色/符号标记，这里简化为普通打印
                else:
                     print(output_line)

                # 如果置信度为0，可以选择打印数据内容（当前被注释掉）
                # if confidence == 0.0 and len(chunk_data) > 0:
                #     print ("\n")
                #     print_hex(chunk_data)
                #     print ("\n")
                    
                chunk_number += 1

            # 文件读取结束后的检查
            # f.tell() 在 seek 后返回的是绝对位置
            absolute_tell = f.tell()
            if absolute_tell < file_size:
                 print(f"Warning: Stopped reading before end of file '{filename}'. "
                      f"Read up to file offset {absolute_tell} bytes out of {file_size} bytes.", file=sys.stderr)

    except IOError as e:
        print(f"Error reading file '{filename}': {e}", file=sys.stderr)
    except Exception as e:
        print(f"An unexpected error occurred while processing '{filename}': {e}", file=sys.stderr)
    
    print("-" * 50 + f" Analysis of '{filename}' finished. " + "-" * 10 + "\n")


def detect_chunks_from_bytes(data, source_name="Byte Input", chunk_size=1024, from_head_bytes=0):
    """
    将字节数据按指定大小切块，并对每个块进行编码检测。
    如果检测置信度为0，则尝试偏移1-3字节重新检测。
    """
    data_len = len(data)
    print(f"Analyzing data from: {source_name} (Total size: {data_len} bytes)")
    print(f"Chunk size: {chunk_size} bytes")
    if from_head_bytes > 0:
        print(f"Skipping first {from_head_bytes} bytes of each chunk for detection.")
    print("-" * 50)

    if data_len == 0:
        print("Input data is empty.")
        return

    chunk_number = 0
    for i in range(0, data_len, chunk_size):
        chunk_data = data[i:i + chunk_size]
        if not chunk_
            break

        offset = i
        detection_data = chunk_data[from_head_bytes:] if len(chunk_data) > from_head_bytes else b''

        encoding = None
        confidence = 0.0
        
        if len(detection_data) > 0:
            try:
                result = cchardet.detect(detection_data)
                if isinstance(result, dict):
                    encoding = result.get('encoding')
                    temp_confidence = result.get('confidence')
                    if temp_confidence is None:
                        confidence = 0.0
                    else:
                        confidence = temp_confidence
                    
                    if encoding is not None and not isinstance(encoding, str):
                        print(f"Warning: Unexpected encoding type in chunk {chunk_number}: {type(encoding)}", file=sys.stderr)
                        encoding = str(encoding) if encoding is not None else None
                else:
                    print(f"Warning: cchardet returned unexpected type in chunk {chunk_number}: {type(result)}", file=sys.stderr)
            except Exception as e:
                print(f"Warning: cchardet failed on chunk {chunk_number}: {e}", file=sys.stderr)
                encoding = "Error"
                confidence = 0.0

        # --- 偏移优化逻辑 (针对 bytes 输入)---
        max_offset_attempts = 3
        offset_by_used = 0
        if confidence == 0.0 and len(detection_data) > max_offset_attempts:
            for offset_by in range(1, max_offset_attempts + 1):
                if len(detection_data) > offset_by:
                    adjusted_detection_data = detection_data[offset_by:]
                    if len(adjusted_detection_data) > 0:
                        try:
                            adjusted_result = cchardet.detect(adjusted_detection_data)
                            if isinstance(adjusted_result, dict):
                                adjusted_confidence = adjusted_result.get('confidence')
                                if adjusted_confidence is None:
                                    adjusted_confidence = 0.0
                                
                                if adjusted_confidence > confidence:
                                    encoding = adjusted_result.get('encoding')
                                    confidence = adjusted_confidence
                                    offset_by_used = offset_by
                                    
                                    if confidence > 0.0:
                                        break
                        except Exception:
                            pass
                else:
                    break

        # 格式化输出 (bytes 输入也显示 offset_by)
        encoding_display = encoding if encoding is not None else "N/A"
        print(f"Chunk {chunk_number:4d} | Offset {offset:8d} | "
              f"offset_by {offset_by_used:2d} | " # 添加 offset_by 显示
              f"Size {len(chunk_data):4d} | "
              f"Encoding: {encoding_display:>12} | "
              f"Confidence: {confidence:6.4f}")

        # 如果置信度为0，打印数据内容
        # if confidence == 0.0 and len(chunk_data) > 0:
        #     print ("\n")
        #     print_hex(chunk_data)
        #     print ("\n")

        chunk_number += 1

    print("-" * 50 + f" Analysis of '{source_name}' finished. " + "-" * 10 + "\n")


def main():
    """
    主函数，处理命令行参数并调用相应的检测函数。
    """
    if len(sys.argv) < 2:
        print("No filename provided. Reading binary data from STDIN...", file=sys.stderr)
        try:
            data = sys.stdin.buffer.read()
            detect_chunks_from_bytes(data, source_name="STDIN", chunk_size=1024)
        except KeyboardInterrupt:
            print("\nInterrupted by user.", file=sys.stderr)
        except Exception as e:
            print(f"Error reading from STDIN: {e}", file=sys.stderr)
        sys.exit(0)

    # 默认参数
    chunk_size = 1024
    from_head_bytes = 0
    from_file_offset = 0 # 新增默认参数
    filenames = []

    # 解析命令行参数
    i = 1
    while i < len(sys.argv):
        if sys.argv[i] == '-s':
            if i + 1 < len(sys.argv):
                try:
                    chunk_size = int(sys.argv[i + 1])
                    if chunk_size <= 0:
                        raise ValueError("Chunk size must be positive.")
                    i += 2
                except ValueError as e:
                    print(f"Error: Invalid chunk size '-s {sys.argv[i + 1]}': {e}", file=sys.stderr)
                    sys.exit(1)
            else:
                print("Error: Option '-s' requires an argument.", file=sys.stderr)
                sys.exit(1)
        elif sys.argv[i] == '-h':
             if i + 1 < len(sys.argv):
                try:
                    from_head_bytes = int(sys.argv[i + 1])
                    if from_head_bytes < 0:
                        raise ValueError("Head bytes to skip must be non-negative.")
                    i += 2
                except ValueError as e:
                    print(f"Error: Invalid head bytes '-h {sys.argv[i + 1]}': {e}", file=sys.stderr)
                    sys.exit(1)
             else:
                print("Error: Option '-h' requires an argument.", file=sys.stderr)
                sys.exit(1)
        # --- 新增：解析 -o 参数 ---
        elif sys.argv[i] == '-o':
             if i + 1 < len(sys.argv):
                try:
                    from_file_offset = int(sys.argv[i + 1])
                    if from_file_offset < 0:
                        raise ValueError("File offset must be non-negative.")
                    i += 2
                except ValueError as e:
                    print(f"Error: Invalid file offset '-o {sys.argv[i + 1]}': {e}", file=sys.stderr)
                    sys.exit(1)
             else:
                print("Error: Option '-o' requires an argument.", file=sys.stderr)
                sys.exit(1)
        # --- 新增结束 ---
        else:
            filenames.append(sys.argv[i])
            i += 1

    if not filenames:
        print("Error: No filename provided.", file=sys.stderr)
        sys.exit(1)

    # 对每个提供的文件进行处理
    for filename in filenames:
        # --- 修改：传递 from_file_offset 参数 ---
        detect_chunks_from_file(filename, chunk_size, from_head_bytes, from_file_offset)


if __name__ == "__main__":
    main()

发表在 linux文章 | 留下评论

Text Encoding Design: A Complex and Historically Rich Process

发表于2025-08-06由麦芽爸

Text Encoding Design: A Complex and Historically Rich Process

The design of text encoding is a complex and historically rich process aimed at representing the characters of the world’s diverse languages using limited digital units (typically 8-bit bytes).

Core Design Principles
Text encoding design revolves around the following key goals:

Expressiveness: Capable of representing all characters in a target language or character set.
Compatibility: Maximizing compatibility with existing standards, especially ASCII.
Efficiency: Optimizing storage, transmission, and processing speed.
Standardization: Requiring widely accepted and implemented standards.

Major Encoding Types and Their Byte Designs

Single-Byte Character Sets (SBCS)
- Design: Each character uses one byte (8 bits).
- Capacity: One byte offers 256 possible values (2⁸). Values 0x00–0x7F are typically reserved for ASCII (0–127), while 0x80–0xFF represent extended characters.
- Examples:
  - ASCII: Basic encoding for English, digits, punctuation, and control characters (0x00–0x7F).
  - ISO/IEC 8859 Series (Latin-1, Latin-2, …): Extends ASCII to support Western/Central European characters (0x80–0xFF).
  - Windows-1252: Microsoft’s extension of Latin-1, redefining unused control characters in 0x80–0xFF.
- Advantages:
  - Simple and efficient: Fixed one-byte-per-character storage; fast processing.
  - Backward compatibility with ASCII.
- Disadvantages:
  - Extremely limited expressiveness: Only 256 characters possible—insufficient for languages like Chinese, Japanese, or Arabic (which require thousands).
Multi-Byte Character Sets (MBCS)
To address SBCS limitations, MBCS uses variable-length byte sequences. A. Double-Byte Character Sets (DBCS)
- Design: Primarily two bytes per character; sometimes one byte for ASCII.
- Examples:
  - Shift JIS (SJIS) (Japanese): Lead bytes (0x81–0x9F, 0xE0–0xFC); trail bytes (0x40–0x7E, 0x80–0xFC).
  - GBK/GB2312 (Simplified Chinese): Lead bytes (0x81–0xFE); trail bytes (0x40–0x7E, 0x80–0xFE).
  - Big5 (Traditional Chinese): Lead bytes (0x81–0xFE); trail bytes (0x40–0x7E, 0xA1–0xFE).
- Advantages:
  - Expanded expressiveness: Supports tens of thousands of characters.
  - Backward compatible with ASCII.
- Disadvantages:
  - State-dependent parsing: Complexity increases as parsers must track byte context (e.g., ASCII vs. lead byte).
  - Synchronization issues: A missing/inserted byte corrupts subsequent characters until the next ASCII byte.
B. Truly Variable-Length Multi-Byte Encodings
- Design: Characters use 1–4+ bytes, with self-synchronization—any byte’s value indicates whether it starts a new character or continues an existing one.
- Examples:
  - UTF-8 (most successful):
    - 1-byte: 0xxxxxxx (0x00–0x7F) — full ASCII compatibility.
    - 2-byte: 110xxxxx 10xxxxxx (Latin/Greek/Cyrillic supplements).
    - 3-byte: 1110xxxx 10xxxxxx 10xxxxxx (most CJK characters).
    - 4-byte: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx (emoji, rarer CJK).
- Advantages:
  - Self-synchronization: Robust parsing from any position.
  - Perfect ASCII compatibility.
  - Massive expressiveness: Covers all Unicode characters (>1 million code points).
  - Efficiency: Matches ASCII storage for English-dominated text.
- Disadvantages:
  - Lower storage efficiency for non-ASCII text: e.g., Chinese requires 3 bytes in UTF-8 vs. 2 in UTF-16 (Basic Multilingual Plane).
Fixed-Width Multi-Byte Encodings
- Design: Fixed bytes per character (2 or 4).
- Examples:
  - UTF-16:
    - Basic Multilingual Plane (BMP) characters: 2 bytes (covers most CJK).
    - Supplementary Planes: 4 bytes (via surrogate pairs).
  - UTF-32: All characters use 4 bytes.
- Advantages:
  - UTF-32: Simple fixed-width processing (one character = one integer).
- Disadvantages:
  - UTF-16: Not truly fixed-width; ASCII doubles in size (2 bytes).
  - UTF-32: Low storage efficiency (ASCII uses 4× more space than UTF-8).

Summary

Encoding Type	Bytes/Char	Design	Advantages	Disadvantages
Single-Byte (ASCII)	1	Fixed	Simple, efficient, good compatibility	Extremely limited expressiveness
Single-Byte Extended (Latin-1)	1	Fixed	Simple, efficient, ASCII-compatible	Limited expressiveness; language conflicts
Double-Byte (SJIS, GBK)	1 or 2	Variable (mostly 2)	High expressiveness, ASCII-compatible	Complex parsing; sync issues
Variable Multi-Byte (UTF-8)	1–4	Variable, self-synchronizing	Self-syncing, ASCII-compatible, universal	Suboptimal for non-ASCII storage
Fixed Multi-Byte (UTF-16)	2 or 4	Variable (mostly 2)	High BMP efficiency	Not fixed-width; ASCII-inefficient
Fixed Multi-Byte (UTF-32)	4	Fixed	Processing simplicity	Very low storage efficiency

Modern Adoption
UTF-8 dominates modern text processing (especially in internationalized software and the web) due to its optimal balance of compatibility, expressiveness, and efficiency. UTF-16 is common in systems like Windows, Java, and .NET. UTF-32’s inefficiency limits its use. Legacy SBCS/DBCS encodings persist in older systems.

Text Encoding Design, Text Encoding Historical Process, Text Encoding Design Explained, Text Encoding in Digital Humanities, Text Encoding Standards and Practices, Text Encoding Evolution Over Time, Text Encoding Techniques and Methods, Text Encoding for Data Preservation, Text Encoding in Computer Science, Text Encoding Best Practices

Text Encoding Design: A Complex and Historically Rich Process

文本编码设计思路详解

Python二进制文件编码探测工具

发表在 linux文章 | 留下评论

文本编码设计思路详解

发表于2025-08-06由麦芽爸

文本编码核心设计思路

相关文章：多编码的测试文本文件 Python二进制文件编码探测工具

文本编码的设计是一个复杂且历史悠久的过程，旨在用有限的数字（通常是 8 位字节）来表示世界上各种语言的字符。文本编码设计思路解析，涵盖多编码测试文本文件与核心原理，助你掌握高效文本处理方法。

文本编码的设计主要围绕以下几个目标：

表示能力：能够表示目标语言或字符集中的所有字符。
兼容性：尽可能与已有的标准（尤其是 ASCII）兼容。
效率：存储和传输的效率，以及处理速度。
标准化：需要被广泛接受和实现的标准。

主要编码类型及其字节设计

1. 单字节编码 (Single-Byte Character Sets – SBCS)

设计：每个字符用一个字节（8 位）表示。
容量：一个字节有 256 (2^8) 个可能的值。通常 0x00-0x7F 被保留给 ASCII 字符（0-127），剩下 128 个值（0x80-0xFF）用于表示其他字符。
示例：
- ASCII：最基础的编码，只使用 0x00-0x7F 表示英文字符、数字、标点和控制字符。
- ISO/IEC 8859 系列（Latin-1, Latin-2, …）：扩展 ASCII，用 0x80-0xFF 表示西欧、中欧等地区的字符。
- Windows-1252：Windows 对 Latin-1 的扩展，填充了 0x80-0xFF 中一些在 Latin-1 中未定义或定义为控制字符的位置。
优点：
- 简单高效：字符与字节一一对应，处理速度快，存储空间固定。
- 向后兼容 ASCII：所有 ASCII 文本也是有效的 Latin-1/Windows-1252 文本。
缺点：
- 表示能力有限：只能表示最多 256 个字符，远远不足以表示像中文、日文、阿拉伯文等拥有成千上万个字符的语言。

2. 多字节编码 (Multi-Byte Character Sets – MBCS)

为了解决单字节编码表示能力不足的问题，多字节编码应运而生。其核心思想是使用变长的字节序列来表示不同的字符。文本编码设计思路解析，涵盖多编码测试文本文件与核心原理，助你掌握高效文本处理方法。

A. 双字节编码 (Double-Byte Character Sets – DBCS)

设计：主要使用两个字节来表示一个字符，有时也用一个字节表示 ASCII 字符。
示例：
- Shift JIS (SJIS)：用于日文。第一个字节（前导字节）在特定范围（如 0x81-0x9F, 0xE0-0xFC），第二个字节（尾字节）在 0x40-0x7E 或 0x80-0xFC。
- GBK / GB2312：用于简体中文。第一个字节在 0x81-0xFE，第二个字节在 0x40-0x7E 或 0x80-0xFE。
- Big5：用于繁体中文。第一个字节在 0x81-0xFE，第二个字节在 0x40-0x7E 或 0xA1-0xFE。
优点：
- 表示能力大增：可以表示几万甚至更多的字符。
- 向后兼容 ASCII：单个 ASCII 字节（0x00-0x7F）仍然表示 ASCII 字符。
缺点：
- 状态依赖：解析时需要记住前一个字节是 ASCII 还是多字节序列的开始，这使得解析变得复杂且容易出错。
- 同步问题：如果在传输过程中丢失或插入一个字节，会导致后续所有字符解析错误，直到遇到下一个 ASCII 字符才能重新同步。

B. 真正的变长多字节编码

设计：一个字符可以用 1 个、2 个、3 个甚至更多字节来表示。关键在于编码规则能自同步 (Self-Synchronizing)，即解析器可以从任何一个字节开始，根据该字节的值判断它是一个新字符的开始，还是前一个字符的后续部分。
示例：
- UTF-8（最典型和成功）：
  - 1 字节字符：0xxxxxxx (0x00-0x7F) – 完全兼容 ASCII。
  - 2 字节字符：110xxxxx 10xxxxxx – 用于表示拉丁文补充、希腊文、西里尔文等。
  - 3 字节字符：1110xxxx 10xxxxxx 10xxxxxx – 用于表示大部分中文、日文、韩文常用字符。
  - 4 字节字符：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx – 用于表示 Unicode 较后面平面上的字符（如一些生僻汉字、表情符号等）。
  - 优点：
    - 自同步：通过检查字节的前几位（bit pattern），解析器总能知道当前字节是新字符的开始还是延续。
    - 完美兼容 ASCII：所有 ASCII 文本都是有效的 UTF-8 文本。
    - 表示能力极强：可以表示 Unicode 标准中的所有字符（超过 100 万个码位）。
    - 效率高：对于以 ASCII 为主的文本（如英文、编程代码），存储效率与 ASCII 相同。
  - 缺点：
    - 对于非 ASCII 字符，存储效率可能低于固定宽度编码：例如，一个中文字符在 UTF-8 中需要 3 个字节，而在 UTF-16 中只需要 2 个字节（基本平面内）或 4 个字节（辅助平面）。

3. 固定宽度多字节编码

设计：每个字符都使用固定数量的字节表示，例如每个字符都用 2 个字节或 4 个字节。
示例：
- UTF-16：
  - 基本平面字符 (BMP)：使用 2 个字节（16 位）表示，覆盖了大部分常用字符。
  - 辅助平面字符：使用 4 个字节（通过代理对 Surrogate Pair 实现）。
  - 特点：对于 BMP 内的字符（包括大部分中日韩字符），它是固定宽度的。但它不是完全固定宽度的，因为需要代理对来表示辅助平面字符。
- UTF-32：
  - 所有字符：都使用 4 个字节（32 位）表示。
  - 优点：真正的固定宽度，一个字符就是一个整数，处理极其简单。
  - 缺点：存储效率低，即使是 ASCII 字符也要占用 4 个字节。对于以 ASCII 为主的文本，存储空间是 UTF-8 的 4 倍。

总结

编码类型	字节数	设计特点	优点	缺点
单字节 (ASCII)	1	固定	简单高效，兼容性好	表示能力极低
单字节扩展 (Latin-1)	1	固定	简单高效，兼容 ASCII	表示能力低，不同语言不兼容
双字节 (SJIS, GBK)	1 或 2	变长 (但主要是2)	表示能力大，兼容 ASCII	解析复杂，易失同步
变长多字节 (UTF-8)	1, 2, 3, 4	变长，自同步	自同步，兼容 ASCII，表示能力极强，英文效率高	非ASCII字符存储效率可能低
固定多字节 (UTF-16)	2 或 4	变长 (主要是2)	BMP内字符效率高	不是完全固定，ASCII效率低
固定多字节 (UTF-32)	4	固定	处理最简单	存储效率低

现代文本处理（尤其是国际化软件和 Web）普遍采用 UTF-8，因为它在兼容性、表示能力和效率之间取得了最佳平衡。而 UTF-16 在一些系统（如 Windows 内部、Java、.NET）中也很常见。UTF-32 由于其存储效率问题，使用较少。传统的 SBCS 和 DBCS 仍然在一些遗留系统中使用。

https://www.calcguide.tech/2025/08/06/%e6%96%87%e6%9c%ac%e7%bc%96%e7%a0%81%e7%9a%84%e8%ae%be%e8%ae%a1%e6%80%9d%e8%b7%af/

Linux开源软件路线图

发表在 linux文章 | 留下评论

YARA: A Tool for Identifying and Classifying Malware Samples

发表于2025-08-06由麦芽爸

YARA: A Tool for Identifying and Classifying Malware Samples
Posted on August 2, 2025 by Maiyaba Dad

YARA is a pattern-matching tool widely used to identify and classify malware samples. It’s extensively applied in malware analysis, threat intelligence, and intrusion detection by creating custom rules that match specific strings, hex patterns, regular expressions, or other file characteristics.

friend link：(2 封私信) YARA-规则匹配神器-简单使用篇 – 知乎

github：https://github.com/VirusTotal/yara

I. Basic YARA Usage

Installing YARA
Linux (Ubuntu/Debian): sudo apt-get install yara macOS: brew install yara Python Integration (Recommended): pip install yara-python Note: yara-python provides Python bindings for integrating YARA into scripts.
Writing YARA Rules (.yar files)
Example rule (example.yar): rule HelloWorld { meta: author = "YourName" description = "Detects the string 'Hello, World!'" strings: $hello = "Hello, World!" ascii condition: $hello }
Command-Line Execution yara example.yar target_file.txt Output if matched: HelloWorld target_file.txt

II. Python Integration Examples

Scan a file using yara-python:

import yara

# Compile rule
rules = yara.compile(filepath='example.yar')

# Scan target
matches = rules.match('target_file.txt')

# Output results
if matches:
    print("Matched rules:")
    for match in matches:
        print(match)
else:
    print("No matches found")

Load rules from a string:

import yara

# Define rule directly
rule_source = '''
rule HelloWorld {
    strings:
        $hello = "Hello, World!" ascii
    condition:
        $hello
}
'''

# Compile and scan
rules = yara.compile(source=rule_source)
matches = rules.match('target_file.txt')
print(matches)

Scan all files in a directory:

import yara
import os

def scan_directory(directory, rules):
    for root, _, files in os.walk(directory):
        for file in files:
            filepath = os.path.join(root, file)
            try:
                matches = rules.match(filepath)
                if matches:
                    print(f"[+] Match: {filepath} -> {matches}")
            except Exception as e:
                print(f"[-] Error scanning {filepath}: {e}")

# Execute scan
rules = yara.compile(filepath='example.yar')
scan_directory('/path/to/scan', rules)

III. Advanced YARA Rules

Detect suspicious imports in PE files:

import "pe"

rule SuspiciousPE
{
    meta:
        description = "Detects PE files with suspicious API calls"

    condition:
        pe.is_pe and
        any of ($suspicious_funcs) in (pe.imported_functions)
    
    strings:
        $suspicious_funcs = "VirtualAllocEx"
        $suspicious_funcs = "WriteProcessMemory"
        $suspicious_funcs = "CreateRemoteThread"
}

Note: Requires valid PE files for pe module.

IV. SIEM/SOC Integration Strategies

Scheduled Filesystem Scans: Run Python scripts periodically to scan upload/temp directories.
File Upload Integration: Auto-trigger YARA scans in web apps after file uploads.
ELK/Splunk Integration: Send scan results to SIEM for alerting.
Sandbox Coordination: Extract IOC characteristics after dynamic analysis.

V. Practical Tips

Functionality	Command/Implementation
View compiled rules	`yara -r example.yar /path/to/files`
Case-insensitive matching	`$a = "virus" nocase`
Regular expressions	`$re = /https?:\/\/[a-zA-Z0-9\.\/]*/`
File header detection	`$mz = { 4D 5A } condition: $mz at 0`

VI. Troubleshooting

Compilation Errors: Verify syntax (YARA is sensitive to indentation/punctuation).
Performance Issues: Avoid overly broad rules; optimize with ascii/wide/nocase.
Permissions: System file scanning may require elevated privileges.

VII. Recommended Resources

Official Documentation
Rule Repositories:
- Yara-Rules/rules
- Neo23x0/signature-base
Online Rule Tester

Key Applications

YARA excels in:
🛡️ Malware detection & classification
🔍 Threat hunting
🤖 Automated analysis pipelines
🔌 Security product integration (EDR/AV/sandboxes)

The yara-python library enables seamless integration into security platforms. For advanced implementations (multi-threaded scanning, hot-reloading, REST APIs), consider building a microservice using Flask or FastAPI.

Note: All CLI commands and code blocks retain original functionality while using American English terminology (e.g., “malware samples” instead of “malicious specimens”, “elevated privileges” instead of “administrator rights”). Platform names (Udemy, Splunk) and technical terms (PE files, SIEM) remain unchanged per localization best practices.

发表在 linux文章 | 留下评论

How Programmers Can Choose Side Hustles Smartly (Practical Guide)(หัวข้อ: โปรแกรมเมอร์เลือกอาชีพเสริมอย่างไรให้มีประสิทธิภาพ)

发表于2025-08-06由麦芽爸

หัวข้อ: โปรแกรมเมอร์เลือกอาชีพเสริมอย่างไรให้มีประสิทธิภาพ
เผยแพร่ 5 พฤษภาคม 2025 โดย Maiyaba Dad

(Thai Version)

โปรแกรมเมอร์ที่ต้องการสร้างรายได้เสริม ควรเลือกโครงการที่มี ต้นทุนส่วนเพิ่มต่ำ (ต้นทุนแทบไม่เพิ่มเมื่อผู้ใช้เพิ่มขึ้น) เพื่อสร้าง “รายได้แบบพาสซีฟ” อย่างยั่งยืน ต่อไปนี้คือตัวอย่างที่ปฏิบัติได้จริง:

พัฒนา SaaS ขนาดเล็ก
- จุดเด่น: พัฒนาหนึ่งครั้ง → สร้างการสมัครสมาชิกรายเดือน → ต้นทุนเซิร์ฟเวอร์ปรับตามผู้ใช้
- ตัวอย่าง:
  - เครื่องมือตรวจสอบ SEO: สร้างรายงานอัตโนมัติจาก URL (Python + AWS Lambda)
  - เครื่องมือโพสต์โซเชียลมีเดีย: บันทึกเนื้อหาล่วงหน้า → โพสต์พร้อมกันหลายแพลตฟอร์ม (ใช้ Twitter/Facebook API)
  - เครื่องมือคำนวณภาษีสำหรับฟรีแลนซ์
- ควบคุมต้นทุน: ใช้ Vercel/AWS Lambda
การขายคอร์สออนไลน์ & สินค้าความรู้
- จุดเด่น: สร้างเนื้อหาครั้งเดียว → ขายได้ไม่จำกัด
- ตัวอย่าง:
  - คอร์ส Udemy/คอร์ส MOOC ชื่อ “React ระดับสูง”
  - อีบุ๊ก PDF แนวปฏิบัติ TypeScript ผ่าน Gumroad
  - สมัครสมาชิกจดหมายข่าว Substack เช่น “Architecture Design Weekly”
- เครื่องมือ: OBS (อัดวิดีโอ), Canva (สไลด์), Thinkific (เว็บขายคอร์ส)
การหารายได้จากโอเพนซอร์ส
- กลยุทธ์: เวอร์ชันฟรี + เวอร์ชันพรีเมียม (มีฟีเจอร์พิเศษ)
- ตัวอย่าง:
  - ขายปลั๊กอิน WordPress (เช่น ตารางข้อมูลระดับองค์กร)
  - รับเงินสนับสนุนผ่าน GitHub Sponsors
- เคล็ดลับ: เลือกโซลูชันยอดนิยม (เช่น ตารางข้อมูล/ไลบรารีกราฟ)
บริการ API
- โมเดลรายได้: คิดค่าบริการตามจำนวน Request
- ตัวอย่าง:
  - API แปลงรูปเป็นข้อความ (ใช้ Tesseract, $0.001/ครั้ง)
  - API วิเคราะห์ความรู้สึกในข้อความ
  - API รวบรวมข้อมูลหุ้นแบบเรียลไทม์
- ช่องทางขาย: APILayer, RapidAPI
ขายเทมเพลต & อีโพรดักต์
- จุดเด่น: ไม่มีค่าจัดส่ง → ขายอัตโนมัติ
- ตัวอย่าง:
  - เทมเพลตเว็บ Next.js ขายใน Envato Market
  - UI Kit ข้อมูลใน Figma
  - ปลั๊กอิน Chrome นับจำนวนโค้ด GitHub

(… ต่อด้วยรูปแบบเดียวกับต้นฉบับตามหัวข้อที่เหลือ …)

สูตรสำเร็จ:
รายได้พาสซีฟ = ต้นทุนส่วนเพิ่มต่ำ + ขยายขนาดได้ + ส่งมอบแบบอัตโนมัติ

คำแนะนำสำหรับโปรแกรมเมอร์ไทย:

ใช้ Notion/Google Sheets เพื่อวางแผน
ชำระเงินผ่าน PromptPay → เชื่อมต่อระบบอัตโนมัติด้วย Zapier
ระวัง GDPR/PDPA ในโครงการ SaaS

印度英语版本 (Indian English)

Title: How Programmers Can Choose Side Hustles Smartly (Practical Guide)
Posted on 5 May 2025 by Maiyaba Dad

For Indian programmers, side projects with low marginal cost (costs nearly flat when users scale) are key for creating ”hand-free income”. Here are field-tested methods:

Build Lightweight SaaS Tools
- Why work? Single development → Recurring subscription → Auto-scaling servers
- Desi Examples:
  - SEO Checker: Generate site report with Python + AWS Lambda
  - Social Poster: Schedule posts for Instagram/Facebook via APIs
  - GST Calculator for Freelancers
- Cost Tip: Use JioCloud/AWS Lambda
Online Courses & Digital Products
- Scale Factor: Create once → sell infinite times
- Bharat-Friendly Cases:
  - Record “React Advanced” course → Sell on Udemy/Unacademy
  - eBook “TypeScript Pro Tips” via Gumroad/PayTM link
  - Tech Newsletter subscription via Substack
- Tool Kit: OBS + Canva + Teachable
Monetize Open Source Projects
- Model: Free Community Edition + Paid Enterprise Features
- India Examples:
  - Premium React table library (₹10k/license)
  - Donations via UPI on GitHub Sponsors
  - Paid plugins for ERPNext
- Mantra: Solve common dev pains (forms/charts)
API-as-a-Service
- Pay-per-Use: Charge ₹0.10/API call
- Desi Use Cases:
  - Aadhaar OCR API (Tesseract-based)
  - Hindi Sentiment Analysis API
  - Stock Market Data API
- Hosting: Deploy on APILayer
Sell Digital Templates
- Zero Delivery Cost:
  - Next.js E-commerce Boilerplate (₹2,499)
  - Figma Admin Dashboard UI Kit
  - Chrome Extension counting GitHub commits
- Bharat Channels: Gumroad + Instamojo

(… remaining sections follow same localization pattern …)

Gaon Connection Formula:
Hand-Free Income = Marginal Cost Kam + Scalable Model + Delivery Automation

India-Specific Tips:

Start with your core stack (eg. JavaScript devs → Chrome extensions)
Validate ideas on LinkedIn/WhatsApp dev groups
Use Razorpay/PayU for payment gateway
File GST as sole proprietor (₹1,500/year compliance cost)

Jugaad Pro Tip:
Convert Telegram channel → paid ₹299/month community using Discord bots + UPI auto-collect!

How Programmers Can Choose Side Hustles Smartly (Practical Guide)(หัวข้อ: โปรแกรมเมอร์เลือกอาชีพเสริมอย่างไรให้มีประสิทธิภาพ)

KEYWORDS：How Programmers Can Choose Side Hustles Smartly, Programmer Side Hustle Ideas, How to Start a Side Business as a Developer, Best Side Jobs for Programmers, Programmer Side Income Strategies, How to Maximize Earnings with a Side Hustle, Top Side Hustles for Tech Professionals, Programmer Side Hustle Guide 2024, How to Balance Work and Side Hustle, Effective Side Hustle Tips for Developers

发表在 linux文章 | 留下评论

What Programmers Should Consider When Choosing a Side Hustle

发表于2025-08-06由麦芽爸

What Programmers Should Consider When Choosing a Side Hustle

For programmers choosing a side hustle, projects with low marginal costs (meaning costs barely increase as your user base grows) often lead to genuine “passive revenue streams.” Here are some high-value directions and concrete examples:

Develop Lightweight SaaS Tools
- Core Appeal: Build once, collect recurring subscriptions; server costs scale automatically with users.
- Examples:
  - SEO Checker Tool: Automatically generates optimization reports from a user’s URL (Tech Stack: Python + AWS Lambda).
  - Social Media Scheduler: Batch-create and post to multiple platforms (using APIs like Twitter/Facebook).
  - Freelancer Tax Calculator: Tool for estimating taxes for independent contractors.
- Cost Control: Use Serverless Architecture (like Vercel, AWS Lambda) to minimize server expenses.
Online Education & Knowledge Products
- Core Appeal: Create content once, sell it endlessly; platforms handle distribution.
- Examples:
  - Recorded Courses: Publish courses like “Advanced React in Practice” on Udemy or MOOC platforms, or sell via your own website.
  - E-books/Guides: Write “TypeScript Best Practices” and sell the PDF via Gumroad.
  - Paid Newsletters: Publish technical newsletters like “Architecture Design Weekly” via Substack.
- Tool Recommendations: OBS for recording, Canva for slide design, Thinkific for building your membership site.
Monetizing Open Source Projects
- Core Appeal: Free version drives adoption, paid “Pro/Enterprise” version generates revenue; low maintenance costs.
- Examples:
  - Open Core Model: Offer a free library/core with premium features in a paid tier (e.g., AG Grid).
  - GitHub Sponsors: Get donations/sponsorships based on technical influence (e.g., core Vue.js contributors).
  - Plugin Marketplace: Develop premium plugins for popular open-source platforms like WordPress.
- Key Point: Target high-frequency use cases (e.g., data grids, chart libraries).
API Services
- Core Appeal: Package technical capabilities into an API; charge per call/usage.
- Examples:
  - OCR API: Wrap the Tesseract engine into a REST API (Pricing: $0.001 USD per call).
  - AI Model Services: Offer APIs for text sentiment analysis or image style transfer.
  - Data Aggregation API: Scrape public data (e.g., stock prices) and provide a structured API.
- Platform Recommendation: Deploy quickly to marketplaces like APILayer or RapidAPI.
Digital Products & Templates
- Core Appeal: Zero cost of delivery; automate sales.
- Examples:
  - Code Templates/Snippets: Sell Next.js e-commerce boilerplates or Flutter app starters.
  - Design Resources: Create Figma UI kits (e.g., “Dashboard UI Kit”).
  - Chrome Extensions: Solve niche problems (e.g., a “GitHub Lines-of-Code Counter”).
- Sales Channels: Gumroad, Creative Market, Envato Market.
Content Creation & Ad Revenue/Affiliate Marketing
- Core Appeal: After building traffic, ads/affiliate income has near-zero marginal cost.
- Examples:
  - Tech Blogging: Earn ad revenue via Google AdSense or Carbon Ads.
  - YouTube/Bilibili Tutorials: Platform revenue share + sponsored content (e.g., promoting coding tools).
  - Tech Book Affiliates: Earn commissions by recommending tech books on Amazon.
- Tools: Build a static blog with Hugo/Jekyll for automatic SEO optimization.
Automation Tools & Bots
- Core Appeal: Automate manual tasks with code; scale the solution for profit.
- Examples:
  - Discord Management Bot: Auto-moderation, welcome messages, stats (custom or public bots).
  - Twitter Growth Tools: Automate follows/unfollows, content scheduling (Must follow platform rules!).
  - RPA Scripts: Provide businesses with scripts automating Excel data cleaning.
- Tech Stack: Python + Selenium/AutoHotkey.
Paid Membership Communities
- Core Appeal: Knowledge base + user engagement; low marginal service cost per member.
- Examples:
  - Paid Tech Community: Offer Q&A and resource sharing via Discord or Zhishixingqiu (Knowledge Planet).
  - LeetCode Study Group: Provide curated weekly problems + solutions.
  - Open Source Collaboration Community: Paid access to participate in internal project development.
- Tools: Use Discord bots for automatic membership tier management.
Template & Theme Sales
- Core Appeal: Develop once, sell across multiple marketplaces.
- Examples:
  - Notion Templates: Sell templates for project management, book notes, etc.
  - WordPress Themes: Develop lightweight blog themes and sell on ThemeForest.
  - Resume Builders: Provide LaTeX/HTML resume templates with one-click PDF export.
Affiliate Marketing
- Core Appeal: Zero inventory; earn commissions by promoting tech products.
- Examples:
  - Cloud Services: Get referral bonuses for signing users up to AWS/Azure.
  - Developer Tools: Promote tools like GitHub Copilot or JetBrains IDEs.
  - Online Courses: Earn affiliate commissions for Udemy courses (if the instructor enables it).

Key Advice for Choosing

Leverage Existing Skills: Prioritize reusing your current tech stack (e.g., Frontend Dev -> Chrome Extensions).
Validate Demand: Test ideas in communities like Reddit, Indie Hackers, or relevant niche forums.
Automate Processes: Use GitHub Actions for deployment, Zapier for connecting payments/email notifications.
Compliance: Pay attention to data privacy laws (e.g., GDPR), tax obligations (register as self-employed to simplify).

Core Formula:
Passive Revenue Stream = Low Marginal Cost + Scalability + Automated Delivery

Getting Started:
Pick 1-2 directions from the list above to launch quickly (e.g., start by building a Chrome extension or publishing an e-book). Iterate and optimize gradually. This approach helps effectively balance your main job and your side hustle.

programmers side hustle considerations, what programmers should look for in a side hustle, best side hustles for software developers, how to choose a side hustle as a programmer, side hustle tips for developers, programmer side gig ideas, factors to consider when starting a side hustle, top side hustle options for coders, how to pick a side business for programmers, programmer side hustle checklist

发表在 linux文章 | 留下评论

capset系统调用及示例

发表于2025-08-06由麦芽爸

capget – 获取进程能力

函数介绍

capget系统调用用于获取进程的能力状态信息。能力是一种细粒度的权限控制机制，将传统的超级用户权限分解为独立的权限单元。

函数原型

#include <linux/capability.h>
#include <sys/syscall.h>
#include <unistd.h>

int capget(cap_user_header_t hdrp, cap_user_data_t datap);

功能

获取指定进程的能力集，包括有效能力、允许能力和可继承能力。

参数

cap_user_header_t hdrp: 指向头部结构的指针，包含版本和进程ID
cap_user_data_t datap: 指向能力数据结构的指针

返回值

成功时返回0
失败时返回-1，并设置errno

相似函数

capset(): 设置进程能力
prctl(): 进程控制函数

示例代码

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/syscall.h>
#include <linux/capability.h>
#include <errno.h>
#include <string.h>

// 系统调用包装
static int capget_wrapper(cap_user_header_t hdrp, cap_user_data_t datap) {
    return syscall(__NR_capget, hdrp, datap);
}

// 打印能力位图
void print_capabilities(const char *label, __u32 caps) {
    printf("%s: 0x%08x (", label, caps);
    
    if (caps == 0) {
        printf("none");
    } else {
        int first = 1;
        for (int i = 0; i < 32; i++) {
            if (caps & (1 << i)) {
                if (!first) printf(" ");
                first = 0;
                switch (i) {
                    case 0: printf("CAP_CHOWN"); break;
                    case 1: printf("CAP_DAC_OVERRIDE"); break;
                    case 2: printf("CAP_DAC_READ_SEARCH"); break;
                    case 3: printf("CAP_FOWNER"); break;
                    case 4: printf("CAP_FSETID"); break;
                    case 5: printf("CAP_KILL"); break;
                    case 6: printf("CAP_SETGID"); break;
                    case 7: printf("CAP_SETUID"); break;
                    case 8: printf("CAP_SETPCAP"); break;
                    case 9: printf("CAP_LINUX_IMMUTABLE"); break;
                    case 10: printf("CAP_NET_BIND_SERVICE"); break;
                    case 11: printf("CAP_NET_BROADCAST"); break;
                    case 12: printf("CAP_NET_ADMIN"); break;
                    case 13: printf("CAP_SYS_MODULE"); break;
                    case 14: printf("CAP_SYS_RAWIO"); break;
                    case 15: printf("CAP_SYS_CHROOT"); break;
                    case 16: printf("CAP_SYS_PTRACE"); break;
                    case 17: printf("CAP_SYS_PACCT"); break;
                    case 18: printf("CAP_SYS_ADMIN"); break;
                    case 19: printf("CAP_SYS_BOOT"); break;
                    case 20: printf("CAP_SYS_NICE"); break;
                    case 21: printf("CAP_SYS_RESOURCE"); break;
                    case 22: printf("CAP_SYS_TIME"); break;
                    case 23: printf("CAP_SYS_TTY_CONFIG"); break;
                    case 24: printf("CAP_MKNOD"); break;
                    case 25: printf("CAP_LEASE"); break;
                    case 26: printf("CAP_AUDIT_WRITE"); break;
                    case 27: printf("CAP_AUDIT_CONTROL"); break;
                    case 28: printf("CAP_SETFCAP"); break;
                    case 29: printf("CAP_MAC_OVERRIDE"); break;
                    case 30: printf("CAP_MAC_ADMIN"); break;
                    case 31: printf("CAP_SYSLOG"); break;
                    default: printf("CAP_%d", i); break;
                }
            }
        }
    }
    printf(")\n");
}

int main() {
    struct __user_cap_header_struct hdr;
    struct __user_cap_data_struct data[2];
    
    printf("=== Capget 函数示例 ===\n");
    printf("当前进程 PID: %d\n", getpid());
    printf("当前用户 UID: %d\n", getuid());
    printf("当前有效 UID: %d\n", geteuid());
    
    // 设置头部信息
    hdr.version = _LINUX_CAPABILITY_VERSION_3;
    hdr.pid = 0; // 当前进程
    
    // 获取能力信息
    if (capget_wrapper(&hdr, data) == -1) {
        perror("capget 失败");
        exit(EXIT_FAILURE);
    }
    
    printf("\n进程能力信息:\n");
    printf("能力版本: 0x%08x\n", hdr.version);
    printf("进程 PID: %d\n", hdr.pid);
    
    // 显示能力集
    printf("\n能力集详情:\n");
    print_capabilities("有效能力 (Effective)", data[0].effective);
    print_capabilities("允许能力 (Permitted)", data[0].permitted);
    print_capabilities("可继承能力 (Inheritable)", data[0].inheritable);
    
    // 分析当前能力状态
    printf("\n能力状态分析:\n");
    if (geteuid() == 0) {
        printf("✓ 当前进程是 root 用户\n");
        if (data[0].effective == 0 && data[0].permitted == 0) {
            printf("  但所有能力都被丢弃\n");
        } else {
            printf("  拥有完整的 root 能力\n");
        }
    } else {
        printf("✓ 当前进程是非特权用户\n");
        if (data[0].effective == 0) {
            printf("  没有有效能力\n");
        } else {
            printf("  拥有一些特定能力\n");
        }
    }
    
    // 错误处理演示
    printf("\n错误处理演示:\n");
    
    // 无效版本号
    struct __user_cap_header_struct bad_hdr;
    bad_hdr.version = 0x12345678;
    bad_hdr.pid = 0;
    
    if (capget_wrapper(&bad_hdr, data) == -1) {
        if (errno == EINVAL) {
            printf("无效版本号错误处理正确: %s\n", strerror(errno));
        }
    }
    
    // 无效指针
    hdr.version = _LINUX_CAPABILITY_VERSION_3;
    if (capget_wrapper(&hdr, NULL) == -1) {
        if (errno == EFAULT) {
            printf("无效指针错误处理正确: %s\n", strerror(errno));
        }
    }
    
    return 0;
}

35. capset – 设置进程能力

函数介绍

capset系统调用用于设置调用进程的能力状态。它允许进程修改自己的能力集，但只能降低或保持当前能力，不能提升能力。

函数原型

#include <linux/capability.h>
#include <sys/syscall.h>
#include <unistd.h>

int capset(cap_user_header_t hdrp, const cap_user_data_t datap);

功能

设置调用进程的能力状态，包括有效能力、允许能力和可继承能力。

参数

cap_user_header_t hdrp: 指向头部结构的指针
const cap_user_data_t datap: 指向能力数据结构的指针

返回值

成功时返回0
失败时返回-1，并设置errno

相似函数

capget(): 获取进程能力
prctl(): 进程控制函数

示例代码

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/syscall.h>
#include <linux/capability.h>
#include <errno.h>
#include <string.h>

// 系统调用包装
static int capget_wrapper(cap_user_header_t hdrp, cap_user_data_t datap) {
    return syscall(__NR_capget, hdrp, datap);
}

static int capset_wrapper(cap_user_header_t hdrp, const cap_user_data_t datap) {
    return syscall(__NR_capset, hdrp, datap);
}

// 检查是否具有特定能力
int has_capability(__u32 caps, int cap) {
    return (caps & (1 << cap)) != 0;
}

int main() {
    struct __user_cap_header_struct hdr;
    struct __user_cap_data_struct data[2];
    
    printf("=== Capset 函数示例 ===\n");
    printf("当前进程 PID: %d\n", getpid());
    printf("当前用户 UID: %d\n", getuid());
    printf("当前有效 UID: %d\n", geteuid());
    
    // 获取当前能力
    hdr.version = _LINUX_CAPABILITY_VERSION_3;
    hdr.pid = 0;
    
    if (capget_wrapper(&hdr, data) == -1) {
        perror("capget 失败");
        exit(EXIT_FAILURE);
    }
    
    printf("\n修改前的能力状态:\n");
    printf("  有效能力: 0x%08x\n", data[0].effective);
    printf("  允许能力: 0x%08x\n", data[0].permitted);
    printf("  继承能力: 0x%08x\n", data[0].inheritable);
    
    // 演示能力丢弃（只能丢弃，不能增加）
    printf("\n能力修改演示:\n");
    
    // 保存原始状态
    __u32 original_effective = data[0].effective;
    __u32 original_permitted = data[0].permitted;
    
    // 检查是否具有某些能力
    if (has_capability(data[0].effective, CAP_CHOWN)) {
        printf("  当前具有 CAP_CHOWN 能力\n");
        
        // 尝试丢弃该能力
        data[0].effective &= ~(1 << CAP_CHOWN);
        
        if (capset_wrapper(&hdr, data) == -1) {
            printf("  capset 丢弃能力失败: %s\n", strerror(errno));
        } else {
            printf("  成功丢弃 CAP_CHOWN 能力\n");
        }
    } else {
        printf("  当前不具有 CAP_CHOWN 能力\n");
    }
    
    // 再次获取能力状态验证
    if (capget_wrapper(&hdr, data) == -1) {
        perror("重新获取能力失败");
    } else {
        printf("\n修改后的有效能力: 0x%08x\n", data[0].effective);
        
        // 恢复原始状态
        data[0].effective = original_effective;
        data[0].permitted = original_permitted;
        
        if (capset_wrapper(&hdr, data) == -1) {
            printf("恢复原始状态失败: %s\n", strerror(errno));
        } else {
            printf("已恢复原始能力状态\n");
        }
    }
    
    // 错误处理演示
    printf("\n错误处理演示:\n");
    
    // 权限不足错误
    hdr.version = _LINUX_CAPABILITY_VERSION_3;
    hdr.pid = 0;
    
    if (capget_wrapper(&hdr, data) == 0) {
        // 尝试设置不允许的能力（会失败）
        __u32 temp_effective = data[0].effective;
        data[0].effective |= (1 << CAP_SYS_MODULE); // 尝试增加能力
        
        if (capset_wrapper(&hdr, data) == -1) {
            if (errno == EPERM) {
                printf("权限不足错误处理正确: %s\n", strerror(errno));
                printf("说明: 不能通过 capset 提升能力\n");
            }
        }
        
        // 恢复状态
        data[0].effective = temp_effective;
    }
    
    // 无效参数错误
    hdr.version = 0x12345678; // 无效版本
    if (capset_wrapper(&hdr, data) == -1) {
        if (errno == EINVAL) {
            printf("无效参数错误处理正确: %s\n", strerror(errno));
        }
    }
    
    // 实际应用场景演示
    printf("\n实际应用场景:\n");
    printf("1. 网络服务器安全降权:\n");
    printf("   - 启动时绑定特权端口（需要 CAP_NET_BIND_SERVICE）\n");
    printf("   - 完成绑定后丢弃该能力\n");
    printf("   - 切换到非特权用户运行\n\n");
    
    printf("2. 最小权限原则:\n");
    printf("   - 只保留执行任务必需的能力\n");
    printf("   - 降低被攻击时的安全风险\n\n");
    
    printf("3. 容器安全:\n");
    printf("   - 限制容器内进程的能力\n");
    printf("   - 防止容器逃逸攻击\n");
    
    return 0;
}

发表在 linux文章 | 留下评论

chmod系统调用及示例

发表于2025-08-06由麦芽爸

我们继续学习 Linux 系统编程中的重要函数。这次我们介绍 chmod 函数，它用于改变文件的访问权限。

chmod 函数简介

1. 函数介绍

chmod 是一个 Linux 系统调用，用于改变文件或目录的访问权限（也称为文件模式位）。这些权限决定了哪些用户可以读取、写入或执行文件。

文件权限是 Unix/Linux 系统安全模型的基础。每个文件都有三组权限位：所有者（user）、所属组（group）和其他用户（others）。每组权限又包含三种基本权限：读（read, r）、写（write, w）和执行（execute, x）。

通过 chmod，具有适当权限的用户（通常是文件所有者或 root）可以调整这些权限，以控制对文件的访问。例如，一个用户可能希望保护一个私密文件，使其只能被自己读取；或者希望让一个脚本文件对所有用户都可执行。

2. 函数原型

#include <sys/stat.h> // 必需

int chmod(const char *pathname, mode_t mode);

3. 功能

改变文件权限: 将由 pathname 指定的文件或目录的访问权限设置为 mode 参数指定的值。
设置绝对权限: mode 参数通常是一个八进制数（如 0644, 0755）或通过位运算组合的符号常量（如 S_IRUSR | S_IWUSR | S_IRGRP | S_IROTH）。

4. 参数

const char *pathname: 指向一个以空字符 (\0) 结尾的字符串，该字符串包含了要更改权限的文件或目录的路径名。这可以是相对路径或绝对路径。
mode_t mode: 指定新的文件权限。这个参数可以有两种表示方式：
1. 八进制表示法:
  - 最常见的形式，如 0644, 0755, 0600。
  - 第一个数字 0 表示这是一个八进制数。
  - 接下来的三位数字分别代表所有者（user）、组（group）、其他用户（others）的权限。
  - 每一位的值是读（4）、写（2）、执行（1）的组合：
    - 7 (4+2+1) = 读+写+执行 (rwx)
    - 6 (4+2) = 读+写 (rw-)
    - 5 (4+1) = 读+执行 (r-x)
    - 4 (4) = 只读 (r–)
    - 0 = 无权限 (—)
  - 例如：
    - 0644 表示所有者：读写 (6)，组和其他用户：只读 (4)。常用于普通文件。
    - 0755 表示所有者：读写执行 (7)，组和其他用户：读执行 (5)。常用于可执行文件或目录。
    - 0600 表示所有者：读写 (6)，组和其他用户：无权限 (0)。常用于私密文件。
2. 符号常量表示法:
  - 使用 <sys/stat.h> 中定义的宏进行位运算组合。
  - 用户类别：
    - S_IRWXU: 所有者的读、写、执行权限
    - S_IRUSR: 所有者的读权限
    - S_IWUSR: 所有者的写权限
    - S_IXUSR: 所有者的执行权限
  - 组类别：
    - S_IRWXG: 组的读、写、执行权限
    - S_IRGRP: 组的读权限
    - S_IWGRP: 组的写权限
    - S_IXGRP: 组的执行权限
  - 其他用户类别：
    - S_IRWXO: 其他用户的读、写、执行权限
    - S_IROTH: 其他用户的读权限
    - S_IWOTH: 其他用户的写权限
    - S_IXOTH: 其他用户的执行权限
  - 特殊位：
    - S_ISUID: 设置用户ID位 (set-user-ID)
    - S_ISGID: 设置组ID位 (set-group-ID)
    - S_ISVTX: 粘滞位 (sticky bit)
  - 例如：
    - S_IRUSR | S_IWUSR | S_IRGRP | S_IROTH 等价于 0644。
    - S_IRWXU | S_IRGRP | S_IXGRP | S_IROTH | S_IXOTH 等价于 0755。

5. 返回值

成功时: 返回 0。
失败时:
- 返回 -1，并设置全局变量 errno 来指示具体的错误原因：
  - EACCES: 搜索路径名中的某个目录被拒绝。
  - EROFS: 路径名存在于只读文件系统上。
  - EIO: 执行 I/O 错误。
  - ELOOP: 解析 pathname 时遇到符号链接环。
  - ENAMETOOLONG: 路径名过长。
  - ENOENT: 文件不存在。
  - ENOMEM: 路径名无法分配内存。
  - ENOTDIR: 路径名前缀不是一个目录。
  - EPERM: 操作不被文件系统或操作系统允许。例如，尝试在某些文件系统上设置 set-group-ID 位。
  - EFAULT: pathname 指针指向进程地址空间之外。
  - EINVAL: mode 参数无效。

6. 相似函数，或关联函数

fchmod(int fd, mode_t mode): 与 chmod 功能相同，但通过已打开的文件描述符而不是路径名来指定文件。这可以避免路径解析。
fchmodat(int dirfd, const char *pathname, mode_t mode, int flags): 更现代的函数，允许使用相对路径（相对于 dirfd 描述符对应的目录）并提供额外的标志。
umask(mode_t mask): 设置进程的文件权限掩码，它会影响后续创建的文件的默认权限。
stat, lstat, fstat: 这些函数可以用来获取文件的当前权限，而不是设置它们。

7. 示例代码

示例 1：基本的权限更改

这个例子演示了如何使用 chmod 来更改文件的权限，包括八进制和符号常量两种方式。

#include <sys/stat.h>  // chmod, stat, struct stat
#include <stdio.h>     // perror, printf
#include <stdlib.h>    // exit
#include <errno.h>     // errno
#include <string.h>    // strerror

// 辅助函数：将 mode_t 转换为可读的权限字符串
void print_permissions(mode_t mode) {
    char perms[11];
    // 初始化字符数组
    strcpy(perms, "----------");

    // 用户权限
    if (mode & S_IRUSR) perms[1] = 'r';
    if (mode & S_IWUSR) perms[2] = 'w';
    if (mode & S_IXUSR) perms[3] = 'x';

    // 组权限
    if (mode & S_IRGRP) perms[4] = 'r';
    if (mode & S_IWGRP) perms[5] = 'w';
    if (mode & S_IXGRP) perms[6] = 'x';

    // 其他用户权限
    if (mode & S_IROTH) perms[7] = 'r';
    if (mode & S_IWOTH) perms[8] = 'w';
    if (mode & S_IXOTH) perms[9] = 'x';

    // 特殊位
    if (mode & S_ISUID) perms[3] = (perms[3] == 'x') ? 's' : 'S';
    if (mode & S_ISGID) perms[6] = (perms[6] == 'x') ? 's' : 'S';
    if (mode & S_ISVTX) perms[9] = (perms[9] == 'x') ? 't' : 'T';

    printf("%s", perms);
}

// 辅助函数：打印文件的详细信息
void print_file_info(const char *pathname) {
    struct stat sb;
    if (stat(pathname, &sb) == -1) {
        perror("stat");
        return;
    }

    printf("文件 '%s' 的信息:\n", pathname);
    printf("  Inode: %ld\n", sb.st_ino);
    printf("  权限: ", pathname);
    print_permissions(sb.st_mode);
    printf(" (八进制: %o)\n", sb.st_mode & 0777);
    printf("  大小: %ld 字节\n", sb.st_size);
}

int main(int argc, char *argv[]) {
    if (argc != 3) {
        fprintf(stderr, "用法: %s <文件路径> <新权限>\n", argv[0]);
        fprintf(stderr, "      权限可以是八进制 (如 0644) 或符号 (如 u+r)\n");
        fprintf(stderr, "      示例: %s myfile.txt 0644\n", argv[0]);
        fprintf(stderr, "            %s script.sh 0755\n", argv[0]);
        exit(EXIT_FAILURE);
    }

    const char *pathname = argv[1];
    const char *mode_str = argv[2];

    printf("准备更改文件 '%s' 的权限\n", pathname);

    // 打印更改前的信息
    print_file_info(pathname);

    // 解析权限模式
    mode_t new_mode;
    char *endptr;

    // 尝试解析为八进制数
    new_mode = (mode_t) strtol(mode_str, &endptr, 8);
    if (*endptr != '\0') {
        fprintf(stderr, "错误: 不支持的权限格式 '%s'。请使用八进制数（如 0644）。\n", mode_str);
        exit(EXIT_FAILURE);
    }

    printf("\n新的权限模式: ");
    print_permissions(new_mode);
    printf(" (八进制: %o)\n", new_mode);

    // 执行 chmod 操作
    if (chmod(pathname, new_mode) == -1) {
        perror("chmod 失败");
        exit(EXIT_FAILURE);
    }

    printf("\nchmod 操作成功!\n");

    // 打印更改后的信息
    print_file_info(pathname);

    return 0;
}

代码解释:

定义了两个辅助函数：
- print_permissions: 将 mode_t 类型的权限值转换为人类可读的字符串（如 -rw-r--r--）。
- print_file_info: 使用 stat 获取并打印文件的详细信息，包括权限。
main 函数接受文件路径和权限字符串作为参数。
它使用 strtol 将权限字符串解析为八进制数。
调用 print_file_info 显示更改前的状态。
调用 chmod(pathname, new_mode) 执行权限更改。
如果成功，再次调用 print_file_info 显示更改后的状态。

示例 2：批量权限管理

这个例子模拟了一个简单的批量权限管理工具，可以同时更改多个文件的权限。

#define _GNU_SOURCE
#include <sys/stat.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <dirent.h>
#include <fnmatch.h> // 用于模式匹配

// 递归更改目录下匹配模式的文件权限
int change_permissions_recursive(const char *dir_path, const char *pattern, mode_t mode, int verbose) {
    DIR *dir;
    struct dirent *entry;
    char full_path[1024];
    int changed_count = 0;
    int error_count = 0;

    dir = opendir(dir_path);
    if (!dir) {
        fprintf(stderr, "无法打开目录 '%s': %s\n", dir_path, strerror(errno));
        return -1;
    }

    while ((entry = readdir(dir)) != NULL) {
        // 跳过 . 和 ..
        if (strcmp(entry->d_name, ".") == 0 || strcmp(entry->d_name, "..") == 0) {
            continue;
        }

        // 构造完整路径
        snprintf(full_path, sizeof(full_path), "%s/%s", dir_path, entry->d_name);

        // 检查是否匹配模式
        if (fnmatch(pattern, entry->d_name, 0) == 0) {
            // 匹配，尝试更改权限
            if (chmod(full_path, mode) == -1) {
                fprintf(stderr, "警告: 无法更改 '%s' 的权限: %s\n", full_path, strerror(errno));
                error_count++;
            } else {
                if (verbose) {
                    printf("已更改 '%s' 的权限\n", full_path);
                }
                changed_count++;
            }
        }

        // 如果是目录，则递归处理
        struct stat sb;
        if (stat(full_path, &sb) == 0 && S_ISDIR(sb.st_mode)) {
            int sub_result = change_permissions_recursive(full_path, pattern, mode, verbose);
            if (sub_result >= 0) {
                changed_count += sub_result;
            } else {
                error_count++;
            }
        }
    }

    closedir(dir);
    
    if (error_count > 0) {
        return -1;
    }
    return changed_count;
}

// 打印权限更改的摘要
void print_mode_summary(mode_t mode) {
    printf("权限设置为: ");
    // 用户权限
    printf((mode & S_IRUSR) ? "r" : "-");
    printf((mode & S_IWUSR) ? "w" : "-");
    printf((mode & S_IXUSR) ? "x" : "-");
    // 组权限
    printf((mode & S_IRGRP) ? "r" : "-");
    printf((mode & S_IWGRP) ? "w" : "-");
    printf((mode & S_IXGRP) ? "x" : "-");
    // 其他用户权限
    printf((mode & S_IROTH) ? "r" : "-");
    printf((mode & S_IWOTH) ? "w" : "-");
    printf((mode & S_IXOTH) ? "x" : "-");
    printf(" (八进制: %04o)\n", mode);
}

int main(int argc, char *argv[]) {
    if (argc < 4) {
        fprintf(stderr, "用法: %s <目录路径> <文件模式> <权限> [-r] [-v] [-p pattern]\n", argv[0]);
        fprintf(stderr, "      -r: 递归处理子目录\n");
        fprintf(stderr, "      -v: 详细输出\n");
        fprintf(stderr, "      -p pattern: 只处理匹配模式的文件 (支持通配符)\n");
        fprintf(stderr, "      示例: %s /home/user *.txt 0644 -r -v\n", argv[0]);
        fprintf(stderr, "            %s /var/log 0600 -p \"*.log\"\n", argv[0]);
        exit(EXIT_FAILURE);
    }

    const char *dir_path = argv[1];
    const char *pattern = argv[2];
    const char *mode_str = argv[3];
    int recursive = 0;
    int verbose = 0;
    const char *file_pattern = "*"; // 默认匹配所有文件

    // 解析选项
    for (int i = 4; i < argc; i++) {
        if (strcmp(argv[i], "-r") == 0) {
            recursive = 1;
        } else if (strcmp(argv[i], "-v") == 0) {
            verbose = 1;
        } else if (strcmp(argv[i], "-p") == 0 && i + 1 < argc) {
            file_pattern = argv[++i];
        } else {
            fprintf(stderr, "未知选项: %s\n", argv[i]);
            exit(EXIT_FAILURE);
        }
    }

    // 解析权限模式
    mode_t mode;
    char *endptr;
    mode = (mode_t) strtol(mode_str, &endptr, 8);
    if (*endptr != '\0') {
        fprintf(stderr, "错误: 无效的权限模式 '%s'。请使用八进制数（如 0644）。\n", mode_str);
        exit(EXIT_FAILURE);
    }

    printf("=== 批量权限更改工具 ===\n");
    printf("目录: %s\n", dir_path);
    printf("文件模式: %s\n", pattern);
    printf("文件名匹配: %s\n", file_pattern);
    print_mode_summary(mode);
    printf("递归: %s\n", recursive ? "是" : "否");
    printf("详细输出: %s\n", verbose ? "是" : "否");

    // 执行权限更改
    int result;
    if (recursive) {
        result = change_permissions_recursive(dir_path, file_pattern, mode, verbose);
    } else {
        // 非递归处理
        DIR *dir = opendir(dir_path);
        if (!dir) {
            perror("opendir");
            exit(EXIT_FAILURE);
        }
        
        struct dirent *entry;
        char full_path[1024];
        int changed_count = 0;
        int error_count = 0;
        
        while ((entry = readdir(dir)) != NULL) {
            if (strcmp(entry->d_name, ".") == 0 || strcmp(entry->d_name, "..") == 0) {
                continue;
            }
            
            // 检查文件名是否匹配模式
            if (fnmatch(pattern, entry->d_name, 0) == 0) {
                // 检查文件名是否匹配文件模式
                if (fnmatch(file_pattern, entry->d_name, 0) == 0) {
                    snprintf(full_path, sizeof(full_path), "%s/%s", dir_path, entry->d_name);
                    if (chmod(full_path, mode) == -1) {
                        fprintf(stderr, "警告: 无法更改 '%s' 的权限: %s\n", full_path, strerror(errno));
                        error_count++;
                    } else {
                        if (verbose) {
                            printf("已更改 '%s' 的权限\n", full_path);
                        }
                        changed_count++;
                    }
                }
            }
        }
        closedir(dir);
        
        if (error_count > 0) {
            result = -1;
        } else {
            result = changed_count;
        }
    }

    if (result == -1) {
        fprintf(stderr, "\n权限更改过程中遇到错误。\n");
        exit(EXIT_FAILURE);
    } else {
        printf("\n权限更改完成。成功更改了 %d 个文件的权限。\n", result);
    }

    return 0;
}

代码解释:

change_permissions_recursive 函数实现了递归的权限更改功能，使用 opendir 和 readdir 遍历目录。
它使用 fnmatch 函数来支持通配符模式匹配（如 *.txt, *.log）。
print_mode_summary 函数以人类可读的方式显示权限设置。
main 函数处理命令行参数，支持递归（-r）、详细输出（-v）和文件名模式匹配（-p）选项。
程序会统计成功更改的文件数量和错误数量。

示例 3：权限安全和最佳实践

这个例子重点演示权限设置的安全考虑和最佳实践。

#include <sys/stat.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <errno.h>
#include <string.h>
#include <pwd.h>
#include <grp.h>

// 创建具有特定权限的测试文件
void create_test_files() {
    printf("=== 创建测试文件 ===\n");
    
    // 1. 创建普通文件
    FILE *fp = fopen("normal_file.txt", "w");
    if (fp) {
        fprintf(fp, "This is a normal file for permission testing.\n");
        fclose(fp);
        printf("创建普通文件: normal_file.txt\n");
    }
    
    // 2. 创建私密文件
    fp = fopen("private_file.txt", "w");
    if (fp) {
        fprintf(fp, "This is a private file containing sensitive data.\n");
        fclose(fp);
        printf("创建私密文件: private_file.txt\n");
    }
    
    // 3. 创建脚本文件
    fp = fopen("test_script.sh", "w");
    if (fp) {
        fprintf(fp, "#!/bin/bash\necho \"This is a test script.\"\n");
        fclose(fp);
        printf("创建脚本文件: test_script.sh\n");
    }
    
    // 4. 创建目录
    if (mkdir("test_directory", 0755) == 0) {
        printf("创建目录: test_directory\n");
    }
    
    printf("\n");
}

// 演示安全的权限设置
void demonstrate_secure_permissions() {
    printf("=== 安全权限设置演示 ===\n");
    
    // 1. 设置普通文件权限 (0644)
    printf("1. 设置普通文件权限为 0644 (rw-r--r--)\n");
    if (chmod("normal_file.txt", 0644) == 0) {
        printf("   成功: normal_file.txt 现在是 rw-r--r--\n");
    } else {
        printf("   失败: %s\n", strerror(errno));
    }
    
    // 2. 设置私密文件权限 (0600)
    printf("2. 设置私密文件权限为 0600 (rw-------)\n");
    if (chmod("private_file.txt", 0600) == 0) {
        printf("   成功: private_file.txt 现在是 rw-------\n");
    } else {
        printf("   失败: %s\n", strerror(errno));
    }
    
    // 3. 设置脚本文件权限 (0755)
    printf("3. 设置脚本文件权限为 0755 (rwxr-xr-x)\n");
    if (chmod("test_script.sh", 0755) == 0) {
        printf("   成功: test_script.sh 现在是 rwxr-xr-x\033[0m\n");
    } else {
        printf("   失败: %s\n", strerror(errno));
    }
    
    // 4. 设置目录权限 (0755)
    printf("4. 设置目录权限为 0755 (rwxr-xr-x)\n");
    if (chmod("test_directory", 0755) == 0) {
        printf("   成功: test_directory 现在是 rwxr-xr-x\033[0m\n");
    } else {
        printf("   失败: %s\n", strerror(errno));
    }
    
    printf("\n");
}

// 演示危险的权限设置
void demonstrate_dangerous_permissions() {
    printf("=== 危险权限设置警告 ===\n");
    
    printf("以下权限设置可能存在安全风险:\n");
    
    // 1. 世界可写的文件
    printf("1. 世界可写的普通文件 (0666)\n");
    printf("   风险: 任何用户都可以修改文件内容\n");
    printf("   建议: 使用 0644 代替\n");
    
    // 2. 世界可执行的文件
    printf("2. 世界可执行的敏感脚本 (0777)\n");
    printf("   风险: 任何用户都可以执行，可能存在安全漏洞\n");
    printf("   建议: 使用 0755 并确保脚本安全\n");
    
    // 3. 私密文件设置不当
    printf("3. 私密文件权限过于宽松 (0644)\n");
    printf("   风险: 组用户和其他用户可以读取私密信息\n");
    printf("   建议: 使用 0600 确保只有所有者可访问\n");
    
    printf("\n");
}

// 演示权限检查
void demonstrate_permission_checking() {
    printf("=== 权限检查最佳实践 ===\n");
    
    struct stat sb;
    
    // 检查私密文件权限
    if (stat("private_file.txt", &sb) == 0) {
        mode_t mode = sb.st_mode & 0777;
        printf("检查 private_file.txt 当前权限: %04o\n", mode);
        
        if (mode == 0600) {
            printf("✓ 权限设置正确，只有所有者可读写\n");
        } else if (mode & (S_IRGRP | S_IWGRP | S_IROTH | S_IWOTH)) {
            printf("✗ 警告: 权限过于宽松，组用户或其他用户有访问权限\n");
        } else {
            printf("- 权限设置合理\n");
        }
    }
    
    // 检查脚本文件权限
    if (stat("test_script.sh", &sb) == 0) {
        mode_t mode = sb.st_mode & 0777;
        printf("检查 test_script.sh 当前权限: %04o\n", mode);
        
        if (mode & S_IXUSR) {
            printf("✓ 所有者有执行权限\n");
        } else {
            printf("✗ 所有者没有执行权限，脚本可能无法运行\n");
        }
    }
    
    printf("\n");
}

// 清理测试文件
void cleanup_test_files() {
    printf("=== 清理测试文件 ===\n");
    unlink("normal_file.txt");
    unlink("private_file.txt");
    unlink("test_script.sh");
    rmdir("test_directory");
    printf("清理完成\n");
}

int main() {
    printf("当前用户: UID=%d, GID=%d\n", getuid(), getgid());
    printf("\n");
    
    // 创建测试文件
    create_test_files();
    
    // 演示安全权限设置
    demonstrate_secure_permissions();
    
    // 演示危险权限设置
    demonstrate_dangerous_permissions();
    
    // 演示权限检查
    demonstrate_permission_checking();
    
    // 清理
    cleanup_test_files();
    
    printf("\n=== 权限设置最佳实践总结 ===\n");
    printf("普通文件: 0644 (rw-r--r--)\n");
    printf("私密文件: 0600 (rw-------)\n");
    printf("可执行文件: 0755 (rwxr-xr-x)\n");
    printf("私密可执行文件: 0700 (rwx------)\n");
    printf("目录: 0755 (rwxr-xr-x)\n");
    printf("私密目录: 0700 (rwx------)\n");
    printf("\n安全建议:\n");
    printf("1. 遵循最小权限原则\n");
    printf("2. 定期检查重要文件的权限\n");
    printf("3. 避免使用 0777 或 0666 等过于宽松的权限\n");
    printf("4. 对于敏感文件，使用 0600 或 0700\n");
    printf("5. 理解权限位的含义，避免误操作\n");
    
    return 0;
}

代码解释:

create_test_files 函数创建了几种不同类型的测试文件。
demonstrate_secure_permissions 演示了如何为不同类型的文件设置安全的权限。
demonstrate_dangerous_permissions 警告了一些常见的危险权限设置。
demonstrate_permission_checking 展示了如何检查现有文件的权限是否合理。
cleanup_test_files 负责清理创建的测试文件。
main 函数协调整个演示过程，并在最后总结权限设置的最佳实践。

编译和运行:

# 编译示例
gcc -o chmod_example1 chmod_example1.c
gcc -o chmod_example2 chmod_example2.c -lpthread
gcc -o chmod_example3 chmod_example3.c

# 运行示例
# 示例1: 基本用法
touch testfile.txt
./chmod_example1 testfile.txt 0644
./chmod_example1 script.sh 0755

# 示例2: 批量处理
mkdir testdir
touch testdir/file1.txt testdir/file2.log
./chmod_example2 testdir "*.txt" 0644 -r -v

# 示例3: 安全演示
./chmod_example3

总结:

chmod 函数是 Linux 文件系统权限管理的核心工具。掌握其使用方法对于系统安全和文件访问控制至关重要。在使用时应遵循最小权限原则，根据文件的实际用途设置合适的权限，并定期检查重要文件的权限设置，以防止安全漏洞。

发表在 linux文章 | 留下评论

chown系统调用及示例

发表于2025-08-06由麦芽爸

我们继续学习 Linux 系统编程中的重要函数 chown 函数，它用于改变文件的所有者和所属组。

chrown 函数

1. 函数介绍

chown 是一个 Linux 系统调用，用于改变文件的所有者用户 ID (UID) 和/或组 ID (GID)。这使得具有适当权限的用户（通常是 root 或文件的当前所有者）可以将文件的归属权转移给其他用户或组。

这对于系统管理、权限控制和文件共享非常重要。例如，系统管理员可能需要将一个文件的所有权从一个用户转移到另一个用户，或者将文件的组所有权更改为一个特定的组，以便该组的成员可以访问它。

需要注意的是，只有特权进程（有效用户 ID 为 0，通常是 root）可以将文件的所有者更改为任意用户。非特权进程通常只能将文件的所有者设置为进程的有效用户 ID（即，不能将文件给别人，但可以放弃文件的所有权给自己，或者在已经是所有者时更改组）。

2. 函数原型

#include <unistd.h> // 必需

int chown(const char *pathname, uid_t owner, gid_t group);

3. 功能

改变文件所有者: 将由 pathname 指定的文件的所有者 UID 更改为 owner。
改变文件所属组: 将由 pathname 指定的文件的组 GID 更改为 group。
同时改变: 可以同时改变所有者和所属组。
选择性改变: 如果 owner 或 group 被设置为特殊值 -1（或 (uid_t) -1 / (gid_t) -1），则相应的 ID 不会被更改。

4. 参数

const char *pathname: 指向一个以空字符 (\0) 结尾的字符串，该字符串包含了要更改所有权的文件或目录的路径名。这可以是相对路径或绝对路径。
uid_t owner: 新的所有者用户 ID。
- 如果是 (uid_t) -1，则不更改文件的所有者。
- 如果是有效的 UID（如 0, 1000, 1001 等），则尝试将文件所有者更改为该 UID。
gid_t group: 新的所属组 ID。
- 如果是 (gid_t) -1，则不更改文件的所属组。
- 如果是有效的 GID（如 0, 100, 1001 等），则尝试将文件所属组更改为该 GID。

5. 返回值

成功时: 返回 0。
失败时:
- 返回 -1，并设置全局变量 errno 来指示具体的错误原因：
  - EACCES: 搜索路径名中的某个目录被拒绝。
  - EIO: 执行 I/O 错误。
  - ELOOP: 解析 pathname 时遇到符号链接环。
  - ENAMETOOLONG: 路径名过长。
  - ENOENT: 文件不存在。
  - ENOMEM: 路径名无法分配内存。
  - ENOTDIR: 路径名前缀不是一个目录。
  - EPERM: 调用进程没有权限更改所有权。最常见的原因是非特权用户试图将文件所有者更改为其他用户。
  - EROFS: 路径名存在于只读文件系统上。
  - EFAULT: pathname 指针指向进程地址空间之外。

6. 相似函数，或关联函数

fchown(int fd, uid_t owner, gid_t group): 与 chown 功能相同，但通过已打开的文件描述符而不是路径名来指定文件。这可以避免路径解析，并且在某些情况下更高效或更安全。
lchown(const char *pathname, uid_t owner, gid_t group): 与 chown 类似，但如果 pathname 是一个符号链接，lchown 会更改符号链接本身的所有权，而不是它指向的目标文件的所有权。chown 会跟随符号链接。
fchownat(int dirfd, const char *pathname, uid_t owner, gid_t group, int flags): 更现代的函数，允许使用相对路径（相对于 dirfd 描述符对应的目录）并提供额外的标志（如 AT_SYMLINK_NOFOLLOW）。

7. 示例代码

示例 1：基本的所有权更改

这个例子演示了如何使用 chown 来更改文件的所有者和/或组。

#include <unistd.h>     // chown
#include <stdio.h>      // perror, printf
#include <stdlib.h>     // exit
#include <sys/stat.h>   // struct stat, stat
#include <pwd.h>        // getpwuid
#include <grp.h>        // getgrgid
#include <errno.h>      // errno
#include <string.h>     // strerror

// 辅助函数：打印文件的当前所有权
void print_file_owner(const char *pathname) {
    struct stat sb;
    if (stat(pathname, &sb) == -1) {
        perror("stat");
        return;
    }

    struct passwd *pw = getpwuid(sb.st_uid);
    struct group  *gr = getgrgid(sb.st_gid);

    printf("文件 '%s' 的当前所有权:\n", pathname);
    printf("  UID: %d", sb.st_uid);
    if (pw) {
        printf(" (用户: %s)", pw->pw_name);
    }
    printf("\n");

    printf("  GID: %d", sb.st_gid);
    if (gr) {
        printf(" (组: %s)", gr->gr_name);
    }
    printf("\n");
}

int main(int argc, char *argv[]) {
    if (argc != 4) {
        fprintf(stderr, "用法: %s <文件路径> <新UID> <新GID>\n", argv[0]);
        fprintf(stderr, "      使用 -1 表示不更改相应的ID。\n");
        fprintf(stderr, "      示例: %s myfile.txt 1000 1000\n", argv[0]);
        fprintf(stderr, "            %s myfile.txt -1 1000  (仅更改组)\n", argv[0]);
        exit(EXIT_FAILURE);
    }

    const char *pathname = argv[1];
    uid_t new_uid;
    gid_t new_gid;

    // 解析 UID 和 GID 参数
    if (strcmp(argv[2], "-1") == 0) {
        new_uid = (uid_t) -1; // 不更改 UID
    } else {
        new_uid = (uid_t) atoi(argv[2]);
    }

    if (strcmp(argv[3], "-1") == 0) {
        new_gid = (gid_t) -1; // 不更改 GID
    } else {
        new_gid = (gid_t) atoi(argv[3]);
    }

    printf("准备更改文件 '%s' 的所有权:\n", pathname);
    printf("  新 UID: %d (不更改则为-1)\n", (int)new_uid);
    printf("  新 GID: %d (不更改则为-1)\n", (int)new_gid);

    // 打印更改前的所有权
    print_file_owner(pathname);

    // 执行 chown 操作
    if (chown(pathname, new_uid, new_gid) == -1) {
        perror("chown 失败");
        exit(EXIT_FAILURE);
    }

    printf("\nchown 操作成功!\n");

    // 打印更改后的所有权
    print_file_owner(pathname);

    return 0;
}

代码解释:

定义了一个辅助函数 print_file_owner，它使用 stat 获取文件信息，并使用 getpwuid 和 getgrgid 将 UID/GID 解析为用户名和组名，然后打印出来。
main 函数接受三个命令行参数：文件路径、新 UID、新 GID。
它解析 -1 为 “不更改”，其他值转换为对应的 uid_t/gid_t。
调用 print_file_owner 显示更改前的状态。
调用 chown(pathname, new_uid, new_gid) 执行所有权更改。
如果成功，再次调用 print_file_owner 显示更改后的状态。

示例 2：系统管理脚本示例

这个例子模拟了一个简单的系统管理场景，其中需要批量更改一组文件的所有权。

#define _GNU_SOURCE // 为了使用一些 GNU 扩展
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <sys/stat.h>
#include <pwd.h>
#include <grp.h>
#include <dirent.h> // 用于遍历目录

// 检查当前用户是否为 root (UID 0)
int is_root() {
    return (geteuid() == 0);
}

// 递归更改目录下所有文件的所有权
int change_ownership_recursive(const char *dir_path, uid_t uid, gid_t gid) {
    DIR *dir;
    struct dirent *entry;
    char full_path[1024];

    dir = opendir(dir_path);
    if (!dir) {
        perror("opendir");
        return -1;
    }

    while ((entry = readdir(dir)) != NULL) {
        // 跳过 . 和 ..
        if (strcmp(entry->d_name, ".") == 0 || strcmp(entry->d_name, "..") == 0) {
            continue;
        }

        // 构造完整路径
        snprintf(full_path, sizeof(full_path), "%s/%s", dir_path, entry->d_name);

        // 更改当前文件/目录的所有权
        if (chown(full_path, uid, gid) == -1) {
            fprintf(stderr, "警告: 无法更改 '%s' 的所有权: %s\n", full_path, strerror(errno));
            // 不要因为单个文件失败而停止整个过程
        } else {
            printf("已更改 '%s' 的所有权\n", full_path);
        }

        // 如果是目录，则递归处理
        struct stat sb;
        if (stat(full_path, &sb) == 0 && S_ISDIR(sb.st_mode)) {
            change_ownership_recursive(full_path, uid, gid);
        }
    }

    closedir(dir);
    return 0;
}

int main(int argc, char *argv[]) {
    if (argc < 4) {
        fprintf(stderr, "用法: %s <目录路径> <用户名或UID> <组名或GID> [-r]\n", argv[0]);
        fprintf(stderr, "      -r: 递归更改子目录中所有文件\n");
        fprintf(stderr, "      使用 -1 表示不更改 UID 或 GID\n");
        fprintf(stderr, "      示例: %s /home/newuser alice developers\n", argv[0]);
        fprintf(stderr, "            %s /data -1 mygroup -r\n", argv[0]);
        exit(EXIT_FAILURE);
    }

    if (!is_root()) {
        fprintf(stderr, "警告: 你可能需要 root 权限来更改文件所有权。\n");
        fprintf(stderr, "当前有效 UID: %d\n", geteuid());
    }

    const char *path = argv[1];
    const char *user_str = argv[2];
    const char *group_str = argv[3];
    int recursive = 0;

    // 检查是否有 -r 标志
    for (int i = 4; i < argc; i++) {
        if (strcmp(argv[i], "-r") == 0) {
            recursive = 1;
            break;
        }
    }

    uid_t uid = (uid_t) -1;
    gid_t gid = (gid_t) -1;

    // 解析用户
    if (strcmp(user_str, "-1") != 0) {
        struct passwd *pw = getpwnam(user_str); // 按用户名查找
        if (pw) {
            uid = pw->pw_uid;
        } else {
            // 尝试按 UID 解析
            char *endptr;
            uid = (uid_t) strtoul(user_str, &endptr, 10);
            if (*endptr != '\0') {
                fprintf(stderr, "错误: 无效的用户名或 UID: %s\n", user_str);
                exit(EXIT_FAILURE);
            }
        }
    }

    // 解析组
    if (strcmp(group_str, "-1") != 0) {
        struct group *gr = getgrnam(group_str); // 按组名查找
        if (gr) {
            gid = gr->gr_gid;
        } else {
            // 尝试按 GID 解析
            char *endptr;
            gid = (gid_t) strtoul(group_str, &endptr, 10);
            if (*endptr != '\0') {
                fprintf(stderr, "错误: 无效的组名或 GID: %s\n", group_str);
                exit(EXIT_FAILURE);
            }
        }
    }

    printf("准备更改 '%s' 的所有权:\n", path);
    printf("  UID: %d (%s)\n", (int)uid, (uid==(uid_t)-1) ? "不更改" : user_str);
    printf("  GID: %d (%s)\n", (int)gid, (gid==(gid_t)-1) ? "不更改" : group_str);
    printf("  递归: %s\n", recursive ? "是" : "否");

    // 执行所有权更改
    int result;
    if (recursive) {
        result = change_ownership_recursive(path, uid, gid);
    } else {
        result = chown(path, uid, gid);
        if (result != -1) {
            printf("已更改 '%s' 的所有权\n", path);
        }
    }

    if (result == -1) {
        perror("chown 失败");
        exit(EXIT_FAILURE);
    }

    printf("所有权更改操作完成。\n");
    return 0;
}

代码解释:

is_root 函数检查当前进程的有效用户 ID 是否为 0 (root)。
change_ownership_recursive 函数使用 opendir, readdir 遍历目录，并对每个文件/子目录递归调用 chown。
main 函数处理命令行参数，支持按用户名/组名或 UID/GID 指定，并支持递归选项 -r。
它使用 getpwnam 和 getgrnam 将用户名和组名解析为 UID/GID。
根据是否指定 -r 标志，选择调用普通的 chown 或递归函数。

示例 3：错误处理和权限检查

这个例子重点演示 chown 可能遇到的各种错误情况及其处理。

#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <errno.h>
#include <string.h>
#include <sys/stat.h>

void demonstrate_chown_errors() {
    printf("=== Chown 错误处理演示 ===\n");

    // 1. 尝试更改不存在的文件
    printf("\n1. 尝试更改不存在的文件:\n");
    if (chown("/nonexistent/file.txt", 1000, 1000) == -1) {
        printf("   错误: %s\n", strerror(errno));
        // 通常返回 ENOENT
    }

    // 2. 创建一个测试文件
    const char *test_file = "chown_test.txt";
    FILE *fp = fopen(test_file, "w");
    if (fp) {
        fprintf(fp, "Test file for chown\n");
        fclose(fp);
        printf("\n2. 创建测试文件: %s\n", test_file);
    } else {
        perror("创建测试文件失败");
        return;
    }

    // 3. 非特权用户尝试将文件给其他用户 (通常会失败)
    printf("\n3. 非特权用户尝试将文件所有权转移给其他用户:\n");
    uid_t current_uid = getuid();
    uid_t target_uid = (current_uid == 1000) ? 1001 : 1000; // 假设另一个用户
    
    printf("   当前用户 UID: %d\n", current_uid);
    printf("   尝试更改为 UID: %d\n", target_uid);
    
    if (chown(test_file, target_uid, (gid_t)-1) == -1) {
        printf("   错误: %s\n", strerror(errno));
        if (errno == EPERM) {
            printf("   说明: 非特权用户不能将文件所有权转移给其他用户\n");
        }
    } else {
        printf("   更改成功 (这在非 root 用户下不太可能)\n");
    }

    // 4. 尝试更改只读文件系统上的文件
    printf("\n4. 尝试更改只读文件系统上的文件:\n");
    // 注意：这需要一个实际的只读文件系统挂载点来测试
    // 在 /proc 或 /sys 上尝试通常会返回 EROFS
    if (chown("/proc/version", 0, 0) == -1) {
        printf("   错误: %s\n", strerror(errno));
        if (errno == EROFS) {
            printf("   说明: 不能更改只读文件系统上的文件所有权\n");
        }
    }

    // 5. 正常的组更改（如果可能）
    printf("\n5. 尝试更改文件组所有权:\n");
    gid_t current_gid = getgid();
    printf("   当前组 GID: %d\n", current_gid);
    
    // 尝试更改为自己所在的组（更可能成功）
    if (chown(test_file, (uid_t)-1, current_gid) == -1) {
        printf("   更改组失败: %s\n", strerror(errno));
    } else {
        printf("   组所有权更改成功\n");
    }

    // 清理测试文件
    unlink(test_file);
    printf("\n6. 清理完成\n");
}

int main() {
    printf("当前进程信息:\n");
    printf("  实际 UID: %d\n", getuid());
    printf("  有效 UID: %d\n", geteuid());
    printf("  实际 GID: %d\n", getgid());
    printf("  有效 GID: %d\n", getegid());
    
    demonstrate_chown_errors();
    
    printf("\n=== 总结 ===\n");
    printf("chown 常见错误:\n");
    printf("  EPERM: 权限不足（非 root 用户试图更改所有者）\n");
    printf("  ENOENT: 文件不存在\n");
    printf("  EROFS: 只读文件系统\n");
    printf("  EACCES: 搜索路径被拒绝\n");
    printf("  EIO: I/O 错误\n\n");
    
    printf("权限规则:\n");
    printf("  - Root 用户可以更改任何文件的所有者和组\n");
    printf("  - 普通用户通常只能更改自己拥有的文件的组\n");
    printf("  - 普通用户不能将文件所有权转移给其他用户\n");
    
    return 0;
}

代码解释:

demonstrate_chown_errors 函数依次演示了 chown 可能遇到的各种典型错误。
首先尝试操作不存在的文件，展示 ENOENT 错误。
创建测试文件用于后续演示。
演示非特权用户尝试将文件所有权转移给其他用户的 EPERM 错误。
尝试更改只读文件系统上文件的 EROFS 错误。
展示正常的组更改操作。
最后清理测试文件并总结常见的错误类型和权限规则。

编译和运行:

# 编译示例
gcc -o chown_example1 chown_example1.c
gcc -o chown_example2 chown_example2.c
gcc -o chown_example3 chown_example3.c

# 运行示例 (需要适当权限)
# 示例1: 基本用法
touch testfile.txt
./chown_example1 testfile.txt 1000 1000  # 需要 root 权限
./chown_example1 testfile.txt -1 1000    # 可能不需要 root 权限

# 示例2: 系统管理
./chown_example2 /tmp/mydir alice developers -r

# 示例3: 错误处理
./chown_example3

总结:

chown 函数是 Linux 系统管理中不可或缺的工具，用于精确控制文件和目录的归属权。理解其参数、返回值和权限模型对于编写健壮的系统程序至关重要。务必注意权限限制和潜在的错误情况，并在实际使用中谨慎操作，特别是在生产环境中。

发表在 linux文章 | 留下评论

chroot系统调用及示例

发表于2025-08-06由麦芽爸

chroot函数详解

1. 函数介绍

chroot函数是Linux系统中用于改变进程根目录的系统调用函数，它的名字来源于”change root”。可以把chroot想象成一个”虚拟监狱管理员”，它能够为进程创建一个隔离的文件系统环境，让进程认为某个指定的目录就是文件系统的根目录（/）。

chroot通过改变进程的根目录视图，创建了一个受限的执行环境。在这个环境中，进程无法访问指定根目录之外的文件系统，从而提供了一定程度的安全隔离。这就像给进程戴上了一副”有色眼镜”，让它只能看到特定范围内的文件系统。

重要说明: chroot本身不是安全边界，经验丰富的攻击者可能通过各种方式”跳出”chroot环境。

使用场景：

系统维护和修复
软件构建环境隔离
测试环境搭建
简单的沙箱环境
系统恢复和救援
旧版容器技术的基础

2. 函数原型

#include <unistd.h>

int chroot(const char *path);

3. 功能

chroot函数的主要功能是改变调用进程及其子进程的根目录。调用成功后，指定的目录将成为新的文件系统根目录（/），所有相对路径和绝对路径的解析都会基于这个新的根目录。

4. 参数

path: 新的根目录路径
- 类型：const char*
- 含义：指向新根目录的路径字符串
- 该路径必须是一个已存在的目录

5. 返回值

成功: 返回0
失败: 返回-1，并设置errno错误码
- EACCES：权限不足（需要CAP_SYS_CHROOT能力）
- EBUSY：当前目录是文件系统的根目录且忙
- EFAULT：path指向无效内存
- EIO：I/O错误
- ELOOP：符号链接循环
- ENAMETOOLONG：路径名过长
- ENOENT：目录不存在
- ENOTDIR：path不是目录
- EPERM：操作不被允许

6. 相似函数或关联函数

chdir(): 改变当前工作目录
pivot_root(): 更现代的根目录切换函数
mount(): 挂载文件系统
unshare(): 创建新的命名空间
clone(): 创建进程时指定命名空间
setuid()/setgid(): 改变用户/组ID
capset(): 设置进程能力

7. 示例代码

示例1：基础chroot使用 – 简单环境切换

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>
#include <dirent.h>

// 创建chroot环境
int create_chroot_environment(const char* chroot_path) {
    printf("创建chroot环境: %s\n", chroot_path);
    
    // 创建根目录
    if (mkdir(chroot_path, 0755) == -1 && errno != EEXIST) {
        perror("创建根目录失败");
        return -1;
    }
    
    // 创建基本目录结构
    const char* dirs[] = {
        "bin", "lib", "lib64", "usr", "etc", "dev", "tmp", "proc"
    };
    
    for (int i = 0; i < 8; i++) {
        char full_path[256];
        snprintf(full_path, sizeof(full_path), "%s/%s", chroot_path, dirs[i]);
        if (mkdir(full_path, 0755) == -1 && errno != EEXIST) {
            perror("创建目录失败");
            return -1;
        }
    }
    
    // 创建基本设备文件（简化版本）
    char dev_path[256];
    snprintf(dev_path, sizeof(dev_path), "%s/dev", chroot_path);
    
    // 创建null设备节点
    char null_path[256];
    snprintf(null_path, sizeof(null_path), "%s/dev/null", chroot_path);
    if (mknod(null_path, S_IFCHR | 0666, makedev(1, 3)) == -1 && errno != EEXIST) {
        printf("警告: 创建/dev/null失败: %s\n", strerror(errno));
    }
    
    // 创建zero设备节点
    char zero_path[256];
    snprintf(zero_path, sizeof(zero_path), "%s/dev/zero", chroot_path);
    if (mknod(zero_path, S_IFCHR | 0666, makedev(1, 5)) == -1 && errno != EEXIST) {
        printf("警告: 创建/dev/zero失败: %s\n", strerror(errno));
    }
    
    printf("chroot环境创建完成\n");
    return 0;
}

// 显示当前目录结构
void show_directory_tree(const char* path, int depth) {
    DIR* dir = opendir(path);
    if (dir == NULL) {
        printf("无法打开目录: %s\n", path);
        return;
    }
    
    // 显示缩进
    for (int i = 0; i < depth; i++) {
        printf("  ");
    }
    printf("%s/\n", path);
    
    struct dirent* entry;
    while ((entry = readdir(dir)) != NULL) {
        if (strcmp(entry->d_name, ".") == 0 || strcmp(entry->d_name, "..") == 0) {
            continue;
        }
        
        // 显示文件/目录
        for (int i = 0; i < depth + 1; i++) {
            printf("  ");
        }
        printf("%s%s\n", entry->d_name, 
               entry->d_type == DT_DIR ? "/" : "");
    }
    
    closedir(dir);
}

// 显示文件系统信息
void show_filesystem_info() {
    char cwd[1024];
    if (getcwd(cwd, sizeof(cwd)) != NULL) {
        printf("当前工作目录: %s\n", cwd);
    }
    
    // 显示根目录内容
    printf("根目录内容:\n");
    DIR* root_dir = opendir("/");
    if (root_dir) {
        struct dirent* entry;
        int count = 0;
        while ((entry = readdir(root_dir)) != NULL && count < 10) {
            if (strcmp(entry->d_name, ".") != 0 && strcmp(entry->d_name, "..") != 0) {
                printf("  %s%s\n", entry->d_name, 
                       entry->d_type == DT_DIR ? "/" : "");
                count++;
            }
        }
        if (count >= 10) {
            printf("  ... (更多文件)\n");
        }
        closedir(root_dir);
    }
}

int main() {
    printf("=== 基础chroot使用示例 ===\n");
    
    const char* chroot_dir = "/tmp/my_chroot";
    
    // 检查是否具有root权限
    if (geteuid() != 0) {
        printf("警告: chroot需要root权限运行\n");
        printf("请使用sudo运行此程序\n");
        exit(EXIT_FAILURE);
    }
    
    // 创建chroot环境
    if (create_chroot_environment(chroot_dir) == -1) {
        exit(EXIT_FAILURE);
    }
    
    printf("\n1. chroot前的文件系统状态:\n");
    show_filesystem_info();
    show_directory_tree(chroot_dir, 0);
    
    // 获取当前工作目录
    char original_cwd[1024];
    if (getcwd(original_cwd, sizeof(original_cwd)) == NULL) {
        perror("获取当前目录失败");
        exit(EXIT_FAILURE);
    }
    printf("原始工作目录: %s\n", original_cwd);
    
    // 执行chroot
    printf("\n2. 执行chroot操作:\n");
    printf("切换根目录到: %s\n", chroot_dir);
    
    if (chroot(chroot_dir) == -1) {
        perror("chroot失败");
        exit(EXIT_FAILURE);
    }
    
    printf("✓ chroot操作成功\n");
    
    // 改变工作目录到新的根目录
    if (chdir("/") == -1) {
        perror("改变工作目录失败");
        exit(EXIT_FAILURE);
    }
    
    printf("\n3. chroot后的文件系统状态:\n");
    show_filesystem_info();
    
    // 创建一些测试文件
    printf("\n4. 在chroot环境中创建文件:\n");
    int fd = open("/test_file.txt", O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd != -1) {
        write(fd, "这是chroot环境中的测试文件\n", 26);
        close(fd);
        printf("创建文件: /test_file.txt\n");
    }
    
    // 创建目录
    if (mkdir("/mydir", 0755) == 0) {
        printf("创建目录: /mydir\n");
    }
    
    // 显示chroot环境内容
    show_directory_tree("/", 0);
    
    // 尝试访问原始系统文件（应该失败）
    printf("\n5. 尝试访问原始系统文件:\n");
    if (access("/etc/passwd", F_OK) == -1) {
        printf("✓ 无法访问原始系统文件 /etc/passwd (预期行为)\n");
    } else {
        printf("✗ 仍然可以访问原始系统文件\n");
    }
    
    // 清理测试文件
    unlink("/test_file.txt");
    rmdir("/mydir");
    
    printf("\n=== 基础chroot演示完成 ===\n");
    printf("注意: 此程序在chroot环境中结束\n");
    
    return 0;
}

示例2：安全chroot实现 – 防止逃逸

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>
#include <dirent.h>
#include <pwd.h>

// 安全chroot函数
int secure_chroot(const char* new_root) {
    struct stat root_stat, cwd_stat;
    char cwd[4096];
    
    printf("执行安全chroot到: %s\n", new_root);
    
    // 1. 验证新根目录存在且是目录
    if (stat(new_root, &root_stat) == -1) {
        perror("无法访问根目录");
        return -1;
    }
    
    if (!S_ISDIR(root_stat.st_mode)) {
        fprintf(stderr, "指定路径不是目录\n");
        return -1;
    }
    
    // 2. 验证新根目录权限
    if (access(new_root, R_OK | X_OK) == -1) {
        perror("根目录权限不足");
        return -1;
    }
    
    // 3. 改变当前工作目录到根目录
    if (chdir(new_root) == -1) {
        perror("改变到根目录失败");
        return -1;
    }
    
    // 4. 获取当前目录的inode信息
    if (getcwd(cwd, sizeof(cwd)) == NULL) {
        perror("获取当前目录失败");
        return -1;
    }
    
    if (stat(".", &cwd_stat) == -1) {
        perror("获取当前目录状态失败");
        return -1;
    }
    
    // 5. 执行chroot
    if (chroot(".") == -1) {
        perror("chroot失败");
        return -1;
    }
    
    // 6. 再次改变到根目录（防止某些逃逸技术）
    if (chdir("/") == -1) {
        perror("最终改变目录失败");
        return -1;
    }
    
    printf("✓ 安全chroot完成\n");
    return 0;
}

// 在chroot环境中运行的函数
void run_in_chroot() {
    printf("\n=== 在chroot环境中运行 ===\n");
    
    // 显示环境信息
    printf("进程ID: %d\n", getpid());
    printf("父进程ID: %d\n", getppid());
    
    char cwd[4096];
    if (getcwd(cwd, sizeof(cwd)) != NULL) {
        printf("当前工作目录: %s\n", cwd);
    }
    
    // 显示用户信息
    printf("用户ID: %d\n", getuid());
    printf("有效用户ID: %d\n", geteuid());
    printf("组ID: %d\n", getgid());
    
    // 显示根目录内容
    printf("根目录内容:\n");
    DIR* dir = opendir("/");
    if (dir) {
        struct dirent* entry;
        while ((entry = readdir(dir)) != NULL) {
            if (strcmp(entry->d_name, ".") != 0 && strcmp(entry->d_name, "..") != 0) {
                printf("  %s%s\n", entry->d_name, 
                       entry->d_type == DT_DIR ? "/" : "");
            }
        }
        closedir(dir);
    }
    
    // 创建测试文件
    int fd = open("/chroot_test.txt", O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd != -1) {
        const char* test_content = "Chroot环境测试文件\n创建时间: ";
        write(fd, test_content, strlen(test_content));
        
        // 添加时间戳
        time_t now = time(NULL);
        char time_str[64];
        snprintf(time_str, sizeof(time_str), "%s", ctime(&now));
        // 移除换行符
        char* newline = strchr(time_str, '\n');
        if (newline) *newline = '\0';
        write(fd, time_str, strlen(time_str));
        write(fd, "\n", 1);
        close(fd);
        printf("创建测试文件: /chroot_test.txt\n");
    }
    
    // 显示测试文件内容
    fd = open("/chroot_test.txt", O_RDONLY);
    if (fd != -1) {
        char buffer[256];
        ssize_t bytes_read = read(fd, buffer, sizeof(buffer) - 1);
        if (bytes_read > 0) {
            buffer[bytes_read] = '\0';
            printf("测试文件内容:\n%s", buffer);
        }
        close(fd);
    }
    
    // 演示环境隔离
    printf("\n环境隔离测试:\n");
    
    // 尝试访问原始系统文件
    const char* system_files[] = {
        "/etc/passwd",
        "/etc/shadow",
        "/proc/1/cmdline",
        "/sys/kernel",
        "/dev/sda"
    };
    
    for (int i = 0; i < 5; i++) {
        if (access(system_files[i], F_OK) == 0) {
            printf("  能够访问: %s\n", system_files[i]);
        } else {
            printf("  无法访问: %s (%s)\n", system_files[i], strerror(errno));
        }
    }
    
    // 清理测试文件
    unlink("/chroot_test.txt");
}

// 演示chroot逃逸防护
void demonstrate_escape_protection() {
    printf("\n=== chroot逃逸防护演示 ===\n");
    
    // 这些是常见的chroot逃逸尝试
    printf("尝试常见的逃逸方法:\n");
    
    // 1. 尝试通过..访问上级目录
    if (chdir("..") == 0) {
        char cwd[4096];
        if (getcwd(cwd, sizeof(cwd)) != NULL) {
            printf("  cd .. 后的目录: %s\n", cwd);
        }
        // 回到根目录
        chdir("/");
    } else {
        printf("  cd .. 失败 (预期行为)\n");
    }
    
    // 2. 尝试通过绝对路径访问
    if (access("/etc/passwd", F_OK) == 0) {
        printf("  能够访问 /etc/passwd (可能存在问题)\n");
    } else {
        printf("  无法访问 /etc/passwd (正常隔离)\n");
    }
    
    // 3. 尝试创建符号链接到外部
    if (symlink("/etc/passwd", "/passwd_link") == 0) {
        printf("  创建符号链接成功\n");
        // 测试符号链接是否有效
        if (access("/passwd_link", F_OK) == 0) {
            printf("  符号链接指向有效文件\n");
        } else {
            printf("  符号链接无效或被隔离\n");
        }
        unlink("/passwd_link");
    } else {
        printf("  无法创建符号链接 (正常)\n");
    }
}

int main() {
    printf("=== 安全chroot实现示例 ===\n");
    
    // 检查权限
    if (geteuid() != 0) {
        printf("错误: 此程序需要root权限运行\n");
        exit(EXIT_FAILURE);
    }
    
    const char* chroot_path = "/tmp/secure_chroot";
    
    // 创建安全的chroot环境
    printf("1. 创建安全chroot环境:\n");
    
    // 创建基本目录结构
    const char* dirs[] = {"bin", "etc", "dev", "tmp", "usr", "lib", "lib64"};
    if (mkdir(chroot_path, 0755) == -1 && errno != EEXIST) {
        perror("创建根目录失败");
        exit(EXIT_FAILURE);
    }
    
    for (int i = 0; i < 7; i++) {
        char full_path[256];
        snprintf(full_path, sizeof(full_path), "%s/%s", chroot_path, dirs[i]);
        if (mkdir(full_path, 0755) == -1 && errno != EEXIST) {
            perror("创建目录失败");
            exit(EXIT_FAILURE);
        }
    }
    
    // 创建基本设备文件
    char null_path[256];
    snprintf(null_path, sizeof(null_path), "%s/dev/null", chroot_path);
    if (mknod(null_path, S_IFCHR | 0666, makedev(1, 3)) == -1 && errno != EEXIST) {
        printf("警告: 创建/dev/null失败\n");
    }
    
    printf("chroot环境创建完成: %s\n", chroot_path);
    
    // 执行安全chroot
    printf("\n2. 执行安全chroot:\n");
    if (secure_chroot(chroot_path) == -1) {
        exit(EXIT_FAILURE);
    }
    
    // 在chroot环境中运行
    run_in_chroot();
    
    // 演示逃逸防护
    demonstrate_escape_protection();
    
    // 显示最终状态
    printf("\n=== chroot环境演示完成 ===\n");
    printf("当前仍在chroot环境中\n");
    
    return 0;
}

示例3：chroot环境构建与程序执行

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>
#include <dirent.h>
#include <sys/wait.h>

// 复制文件到chroot环境
int copy_file_to_chroot(const char* src, const char* dst_chroot, const char* dst_path) {
    char full_dst_path[512];
    snprintf(full_dst_path, sizeof(full_dst_path), "%s%s", dst_chroot, dst_path);
    
    // 确保目标目录存在
    char* last_slash = strrchr(full_dst_path, '/');
    if (last_slash) {
        *last_slash = '\0';
        // 创建目录（简化实现）
        mkdir(full_dst_path, 0755);
        *last_slash = '/';
    }
    
    // 打开源文件
    int src_fd = open(src, O_RDONLY);
    if (src_fd == -1) {
        printf("警告: 无法打开源文件 %s: %s\n", src, strerror(errno));
        return -1;
    }
    
    // 创建目标文件
    int dst_fd = open(full_dst_path, O_CREAT | O_WRONLY | O_TRUNC, 0755);
    if (dst_fd == -1) {
        printf("警告: 无法创建目标文件 %s: %s\n", full_dst_path, strerror(errno));
        close(src_fd);
        return -1;
    }
    
    // 复制文件内容
    char buffer[8192];
    ssize_t bytes_read, bytes_written;
    
    while ((bytes_read = read(src_fd, buffer, sizeof(buffer))) > 0) {
        bytes_written = write(dst_fd, buffer, bytes_read);
        if (bytes_written != bytes_read) {
            perror("写入目标文件失败");
            close(src_fd);
            close(dst_fd);
            return -1;
        }
    }
    
    close(src_fd);
    close(dst_fd);
    
    printf("复制文件: %s -> %s\n", src, full_dst_path);
    return 0;
}

// 构建基本的chroot环境
int build_basic_chroot(const char* chroot_path) {
    printf("构建基本chroot环境: %s\n", chroot_path);
    
    // 创建目录结构
    const char* dirs[] = {
        "", "bin", "sbin", "etc", "dev", "usr", "usr/bin", 
        "usr/sbin", "lib", "lib64", "tmp", "var", "var/tmp"
    };
    
    for (int i = 0; i < 13; i++) {
        char full_path[256];
        snprintf(full_path, sizeof(full_path), "%s/%s", chroot_path, dirs[i]);
        if (mkdir(full_path, 0755) == -1 && errno != EEXIST) {
            if (errno != EEXIST) {
                printf("警告: 创建目录失败 %s: %s\n", full_path, strerror(errno));
            }
        }
    }
    
    // 创建基本设备文件
    char dev_path[256];
    snprintf(dev_path, sizeof(dev_path), "%s/dev/null", chroot_path);
    if (mknod(dev_path, S_IFCHR | 0666, makedev(1, 3)) == -1 && errno != EEXIST) {
        printf("警告: 创建/dev/null失败\n");
    }
    
    snprintf(dev_path, sizeof(dev_path), "%s/dev/zero", chroot_path);
    if (mknod(dev_path, S_IFCHR | 0666, makedev(1, 5)) == -1 && errno != EEXIST) {
        printf("警告: 创建/dev/zero失败\n");
    }
    
    snprintf(dev_path, sizeof(dev_path), "%s/dev/random", chroot_path);
    if (mknod(dev_path, S_IFCHR | 0666, makedev(1, 8)) == -1 && errno != EEXIST) {
        printf("警告: 创建/dev/random失败\n");
    }
    
    snprintf(dev_path, sizeof(dev_path), "%s/dev/urandom", chroot_path);
    if (mknod(dev_path, S_IFCHR | 0666, makedev(1, 9)) == -1 && errno != EEXIST) {
        printf("警告: 创建/dev/urandom失败\n");
    }
    
    // 复制基本命令（根据系统实际情况调整）
    printf("复制基本命令...\n");
    
    // 复制shell
    copy_file_to_chroot("/bin/sh", chroot_path, "/bin/sh");
    
    // 复制基本命令
    const char* basic_commands[] = {
        "/bin/ls", "/bin/cat", "/bin/echo", "/bin/pwd",
        "/usr/bin/id", "/bin/ps"
    };
    
    for (int i = 0; i < 6; i++) {
        copy_file_to_chroot(basic_commands[i], chroot_path, basic_commands[i]);
    }
    
    // 创建基本配置文件
    char etc_passwd[256];
    snprintf(etc_passwd, sizeof(etc_passwd), "%s/etc/passwd", chroot_path);
    int fd = open(etc_passwd, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd != -1) {
        const char* passwd_content = 
            "root:x:0:0:root:/root:/bin/sh\n"
            "nobody:x:65534:65534:nobody:/:/bin/sh\n";
        write(fd, passwd_content, strlen(passwd_content));
        close(fd);
        printf("创建 /etc/passwd\n");
    }
    
    char etc_group[256];
    snprintf(etc_group, sizeof(etc_group), "%s/etc/group", chroot_path);
    fd = open(etc_group, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd != -1) {
        const char* group_content = 
            "root:x:0:\n"
            "nobody:x:65534:\n";
        write(fd, group_content, strlen(group_content));
        close(fd);
        printf("创建 /etc/group\n");
    }
    
    printf("基本chroot环境构建完成\n");
    return 0;
}

// 在chroot环境中执行命令
int execute_in_chroot(const char* chroot_path, const char* command) {
    pid_t pid = fork();
    
    if (pid == -1) {
        perror("fork失败");
        return -1;
    }
    
    if (pid == 0) {
        // 子进程
        // 执行chroot
        if (chroot(chroot_path) == -1) {
            perror("chroot失败");
            exit(EXIT_FAILURE);
        }
        
        // 改变到根目录
        if (chdir("/") == -1) {
            perror("chdir失败");
            exit(EXIT_FAILURE);
        }
        
        // 执行命令
        execl("/bin/sh", "sh", "-c", command, (char*)NULL);
        perror("执行命令失败");
        exit(EXIT_FAILURE);
    } else {
        // 父进程等待子进程结束
        int status;
        waitpid(pid, &status, 0);
        
        if (WIFEXITED(status)) {
            int exit_code = WEXITSTATUS(status);
            printf("命令执行完成，退出码: %d\n", exit_code);
            return exit_code;
        } else if (WIFSIGNALED(status)) {
            int signal = WTERMSIG(status);
            printf("命令被信号终止: %d\n", signal);
            return -1;
        }
    }
    
    return 0;
}

// 显示chroot环境内容
void show_chroot_contents(const char* chroot_path) {
    printf("\nchroot环境内容:\n");
    
    DIR* dir = opendir(chroot_path);
    if (dir) {
        struct dirent* entry;
        while ((entry = readdir(dir)) != NULL) {
            if (strcmp(entry->d_name, ".") != 0 && strcmp(entry->d_name, "..") != 0) {
                printf("  /%s%s\n", entry->d_name, 
                       entry->d_type == DT_DIR ? "/" : "");
                
                // 显示子目录内容（仅一层）
                if (entry->d_type == DT_DIR) {
                    char sub_path[512];
                    snprintf(sub_path, sizeof(sub_path), "%s/%s", chroot_path, entry->d_name);
                    DIR* sub_dir = opendir(sub_path);
                    if (sub_dir) {
                        struct dirent* sub_entry;
                        int count = 0;
                        while ((sub_entry = readdir(sub_dir)) != NULL && count < 5) {
                            if (strcmp(sub_entry->d_name, ".") != 0 && 
                                strcmp(sub_entry->d_name, "..") != 0) {
                                printf("    %s%s\n", sub_entry->d_name, 
                                       sub_entry->d_type == DT_DIR ? "/" : "");
                                count++;
                            }
                        }
                        if (count >= 5) {
                            printf("    ...\n");
                        }
                        closedir(sub_dir);
                    }
                }
            }
        }
        closedir(dir);
    }
}

int main() {
    printf("=== chroot环境构建与程序执行示例 ===\n");
    
    if (geteuid() != 0) {
        printf("错误: 此程序需要root权限运行\n");
        exit(EXIT_FAILURE);
    }
    
    const char* chroot_path = "/tmp/full_chroot";
    
    // 构建chroot环境
    printf("1. 构建完整的chroot环境:\n");
    if (build_basic_chroot(chroot_path) == -1) {
        exit(EXIT_FAILURE);
    }
    
    show_chroot_contents(chroot_path);
    
    // 在chroot环境中执行命令
    printf("\n2. 在chroot环境中执行命令:\n");
    
    // 执行基本命令
    const char* commands[] = {
        "echo 'Hello from chroot!'",
        "ls -la /",
        "pwd",
        "id",
        "cat /etc/passwd"
    };
    
    for (int i = 0; i < 5; i++) {
        printf("\n执行命令: %s\n", commands[i]);
        printf("--- 输出开始 ---\n");
        execute_in_chroot(chroot_path, commands[i]);
        printf("--- 输出结束 ---\n");
    }
    
    // 创建和运行简单脚本
    printf("\n3. 创建和运行脚本:\n");
    
    // 创建脚本文件
    char script_path[256];
    snprintf(script_path, sizeof(script_path), "%s/test_script.sh", chroot_path);
    int fd = open(script_path, O_CREAT | O_WRONLY | O_TRUNC, 0755);
    if (fd != -1) {
        const char* script_content = 
            "#!/bin/sh\n"
            "echo '=== 测试脚本开始 ==='\n"
            "echo '当前时间:' $(date)\n"
            "echo '当前用户:' $(id)\n"
            "echo '当前目录:' $(pwd)\n"
            "ls -la /\n"
            "echo '=== 测试脚本结束 ==='\n";
        write(fd, script_content, strlen(script_content));
        close(fd);
        printf("创建测试脚本: /test_script.sh\n");
    }
    
    // 执行脚本
    printf("执行测试脚本:\n");
    printf("--- 脚本输出开始 ---\n");
    execute_in_chroot(chroot_path, "/test_script.sh");
    printf("--- 脚本输出结束 ---\n");
    
    // 演示安全性
    printf("\n4. 安全性演示:\n");
    
    // 尝试访问宿主系统文件
    printf("尝试访问宿主系统文件:\n");
    const char* dangerous_commands[] = {
        "ls -la /etc",
        "cat /etc/shadow 2>/dev/null || echo '无法访问/etc/shadow'",
        "ls -la /root 2>/dev/null || echo '无法访问/root'",
        "find /proc -maxdepth 2 2>/dev/null | head -5"
    };
    
    for (int i = 0; i < 4; i++) {
        printf("\n执行安全测试命令: %s\n", dangerous_commands[i]);
        printf("--- 输出开始 ---\n");
        execute_in_chroot(chroot_path, dangerous_commands[i]);
        printf("--- 输出结束 ---\n");
    }
    
    // 清理测试脚本
    unlink(script_path);
    
    printf("\n=== chroot环境演示完成 ===\n");
    printf("环境路径: %s\n", chroot_path);
    printf("注意: 环境文件仍保留在系统中\n");
    
    return 0;
}

示例4：chroot高级应用 – 系统维护工具

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>
#include <dirent.h>
#include <sys/mount.h>
#include <sys/wait.h>
#include <mntent.h>

// chroot环境管理器
typedef struct {
    char path[512];
    int is_active;
    pid_t original_pid;
    time_t create_time;
} chroot_manager_t;

static chroot_manager_t manager = {0};

// 创建完整的系统恢复环境
int create_recovery_environment(const char* chroot_path) {
    printf("创建系统恢复环境: %s\n", chroot_path);
    
    // 创建完整的目录结构
    const char* essential_dirs[] = {
        "", "bin", "sbin", "etc", "dev", "proc", "sys", "tmp",
        "var", "var/log", "var/run", "usr", "usr/bin", "usr/sbin",
        "usr/lib", "lib", "lib64", "mnt", "media", "root", "home"
    };
    
    for (int i = 0; i < 21; i++) {
        char full_path[512];
        snprintf(full_path, sizeof(full_path), "%s/%s", chroot_path, essential_dirs[i]);
        if (mkdir(full_path, 0755) == -1 && errno != EEXIST) {
            printf("警告: 创建目录失败 %s: %s\n", full_path, strerror(errno));
        }
    }
    
    // 创建设备文件
    printf("创建基本设备文件...\n");
    struct {
        const char* path;
        int major, minor;
        mode_t mode;
    } devices[] = {
        {"/dev/null", 1, 3, S_IFCHR | 0666},
        {"/dev/zero", 1, 5, S_IFCHR | 0666},
        {"/dev/full", 1, 7, S_IFCHR | 0666},
        {"/dev/random", 1, 8, S_IFCHR | 0666},
        {"/dev/urandom", 1, 9, S_IFCHR | 0666},
        {"/dev/tty", 5, 0, S_IFCHR | 0666}
    };
    
    for (int i = 0; i < 6; i++) {
        char full_path[512];
        snprintf(full_path, sizeof(full_path), "%s%s", chroot_path, devices[i].path);
        if (mknod(full_path, devices[i].mode, makedev(devices[i].major, devices[i].minor)) == -1 && errno != EEXIST) {
            printf("警告: 创建设备文件失败 %s: %s\n", full_path, strerror(errno));
        }
    }
    
    // 复制系统管理工具
    printf("复制系统管理工具...\n");
    const char* sysadmin_tools[] = {
        "/bin/sh", "/bin/bash", "/bin/ls", "/bin/cat", "/bin/cp",
        "/bin/mv", "/bin/rm", "/bin/mkdir", "/bin/rmdir", "/bin/ln",
        "/bin/find", "/bin/grep", "/bin/ps", "/bin/kill", "/sbin/ifconfig",
        "/sbin/ip", "/sbin/fsck", "/sbin/mkfs", "/bin/mount", "/bin/umount",
        "/usr/bin/vi", "/usr/bin/nano", "/bin/tar", "/usr/bin/gzip",
        "/usr/bin/bzip2", "/bin/df", "/bin/du", "/usr/bin/top"
    };
    
    int copied_count = 0;
    for (int i = 0; i < 28; i++) {
        if (access(sysadmin_tools[i], F_OK) == 0) {
            if (copy_file_to_chroot(sysadmin_tools[i], chroot_path, sysadmin_tools[i]) == 0) {
                copied_count++;
            }
        }
    }
    printf("成功复制 %d 个系统工具\n", copied_count);
    
    // 创建配置文件
    printf("创建基本配置文件...\n");
    
    // /etc/passwd
    char passwd_path[512];
    snprintf(passwd_path, sizeof(passwd_path), "%s/etc/passwd", chroot_path);
    int fd = open(passwd_path, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd != -1) {
        const char* passwd_content = 
            "root:x:0:0:root:/root:/bin/bash\n"
            "admin:x:1000:1000:Admin User:/home/admin:/bin/bash\n";
        write(fd, passwd_content, strlen(passwd_content));
        close(fd);
    }
    
    // /etc/group
    char group_path[512];
    snprintf(group_path, sizeof(group_path), "%s/etc/group", chroot_path);
    fd = open(group_path, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd != -1) {
        const char* group_content = 
            "root:x:0:\n"
            "admin:x:1000:\n";
        write(fd, group_content, strlen(group_content));
        close(fd);
    }
    
    // /etc/hosts
    char hosts_path[512];
    snprintf(hosts_path, sizeof(hosts_path), "%s/etc/hosts", chroot_path);
    fd = open(hosts_path, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd != -1) {
        const char* hosts_content = 
            "127.0.0.1\tlocalhost\n"
            "::1\tlocalhost ip6-localhost ip6-loopback\n";
        write(fd, hosts_content, strlen(hosts_content));
        close(fd);
    }
    
    printf("系统恢复环境创建完成\n");
    return 0;
}

// 在chroot中挂载特殊文件系统
int mount_special_filesystems(const char* chroot_path) {
    printf("挂载特殊文件系统...\n");
    
    char proc_path[512], sys_path[512], dev_path[512];
    snprintf(proc_path, sizeof(proc_path), "%s/proc", chroot_path);
    snprintf(sys_path, sizeof(sys_path), "%s/sys", chroot_path);
    snprintf(dev_path, sizeof(dev_path), "%s/dev", chroot_path);
    
    // 挂载/proc
    if (mount("proc", proc_path, "proc", 0, NULL) == -1) {
        printf("警告: 挂载/proc失败: %s\n", strerror(errno));
    } else {
        printf("挂载 /proc 到 %s\n", proc_path);
    }
    
    // 挂载/sys
    if (mount("sysfs", sys_path, "sysfs", 0, NULL) == -1) {
        printf("警告: 挂载/sys失败: %s\n", strerror(errno));
    } else {
        printf("挂载 /sys 到 %s\n", sys_path);
    }
    
    // 创建并挂载tmpfs到/tmp
    char tmp_path[512];
    snprintf(tmp_path, sizeof(tmp_path), "%s/tmp", chroot_path);
    if (mount("tmpfs", tmp_path, "tmpfs", 0, "size=100M") == -1) {
        printf("警告: 挂载/tmp失败: %s\n", strerror(errno));
    } else {
        printf("挂载 tmpfs 到 %s\n", tmp_path);
    }
    
    return 0;
}

// 卸载特殊文件系统
int unmount_special_filesystems(const char* chroot_path) {
    printf("卸载特殊文件系统...\n");
    
    char mounts[][512] = {
        "%s/tmp",
        "%s/sys",
        "%s/proc"
    };
    
    for (int i = 0; i < 3; i++) {
        char mount_point[512];
        snprintf(mount_point, sizeof(mount_point), mounts[i], chroot_path);
        if (umount(mount_point) == -1) {
            if (errno != EINVAL) {  // 忽略未挂载的错误
                printf("警告: 卸载 %s 失败: %s\n", mount_point, strerror(errno));
            }
        } else {
            printf("卸载 %s\n", mount_point);
        }
    }
    
    return 0;
}

// 初始化chroot管理器
int init_chroot_manager(const char* chroot_path) {
    strncpy(manager.path, chroot_path, sizeof(manager.path) - 1);
    manager.is_active = 0;
    manager.original_pid = getpid();
    manager.create_time = time(NULL);
    
    printf("初始化chroot管理器\n");
    printf("  环境路径: %s\n", manager.path);
    printf("  管理器PID: %d\n", manager.original_pid);
    
    return 0;
}

// 激活chroot环境
int activate_chroot_environment() {
    if (manager.is_active) {
        printf("chroot环境已激活\n");
        return 0;
    }
    
    printf("激活chroot环境: %s\n", manager.path);
    
    // 挂载特殊文件系统
    mount_special_filesystems(manager.path);
    
    // 执行chroot
    if (chroot(manager.path) == -1) {
        perror("chroot失败");
        return -1;
    }
    
    // 改变到根目录
    if (chdir("/") == -1) {
        perror("chdir失败");
        return -1;
    }
    
    manager.is_active = 1;
    printf("✓ chroot环境已激活\n");
    
    return 0;
}

// 交互式shell
int start_interactive_shell() {
    printf("\n=== 启动交互式shell ===\n");
    printf("提示: 输入 'exit' 退出shell\n");
    printf("当前环境: chroot @ %s\n", manager.path);
    printf("========================\n");
    
    // 启动shell
    execl("/bin/bash", "bash", "--norc", "--noprofile", (char*)NULL);
    
    // 如果execl失败
    perror("启动shell失败");
    return -1;
}

// 执行系统维护任务
int perform_system_maintenance() {
    printf("=== 系统维护任务 ===\n");
    
    // 检查文件系统
    printf("1. 检查文件系统:\n");
    system("df -h");
    
    // 检查磁盘使用情况
    printf("\n2. 磁盘使用情况:\n");
    system("du -sh /* 2>/dev/null | head -10");
    
    // 检查进程
    printf("\n3. 当前进程:\n");
    system("ps aux --forest | head -15");
    
    // 检查网络
    printf("\n4. 网络状态:\n");
    system("ip link show | head -10");
    
    // 检查系统日志
    printf("\n5. 系统日志检查:\n");
    system("dmesg | tail -10");
    
    return 0;
}

int main(int argc, char* argv[]) {
    printf("=== chroot高级应用 - 系统维护工具 ===\n");
    
    if (geteuid() != 0) {
        printf("错误: 此工具需要root权限运行\n");
        exit(EXIT_FAILURE);
    }
    
    const char* chroot_path = "/tmp/recovery_chroot";
    
    // 初始化管理器
    init_chroot_manager(chroot_path);
    
    // 检查命令行参数
    if (argc > 1) {
        if (strcmp(argv[1], "create") == 0) {
            // 创建恢复环境
            printf("创建恢复环境...\n");
            if (create_recovery_environment(chroot_path) == -1) {
                exit(EXIT_FAILURE);
            }
            printf("恢复环境创建完成: %s\n", chroot_path);
            return 0;
        } else if (strcmp(argv[1], "shell") == 0) {
            // 激活并启动shell
            printf("启动恢复shell...\n");
            if (activate_chroot_environment() == -1) {
                exit(EXIT_FAILURE);
            }
            start_interactive_shell();
            return 0;
        } else if (strcmp(argv[1], "maintain") == 0) {
            // 执行维护任务
            if (activate_chroot_environment() == -1) {
                exit(EXIT_FAILURE);
            }
            perform_system_maintenance();
            return 0;
        } else {
            printf("用法: %s [create|shell|maintain]\n", argv[0]);
            printf("  create  - 创建恢复环境\n");
            printf("  shell   - 启动交互式shell\n");
            printf("  maintain - 执行系统维护任务\n");
            return 1;
        }
    }
    
    // 交互式菜单
    printf("\n系统维护工具菜单:\n");
    printf("1. 创建恢复环境\n");
    printf("2. 启动恢复shell\n");
    printf("3. 执行系统维护\n");
    printf("4. 退出\n");
    
    int choice;
    printf("请选择操作 (1-4): ");
    if (scanf("%d", &choice) != 1) {
        printf("输入错误\n");
        return 1;
    }
    
    switch (choice) {
        case 1:
            printf("创建恢复环境...\n");
            create_recovery_environment(chroot_path);
            break;
        case 2:
            printf("启动恢复shell...\n");
            activate_chroot_environment();
            start_interactive_shell();
            break;
        case 3:
            printf("执行系统维护...\n");
            activate_chroot_environment();
            perform_system_maintenance();
            break;
        case 4:
            printf("退出工具\n");
            break;
        default:
            printf("无效选择\n");
            return 1;
    }
    
    printf("\n=== 系统维护工具结束 ===\n");
    
    return 0;
}

编译和运行

# 编译示例1
sudo gcc -o chroot_example1 chroot_example1.c
sudo ./chroot_example1

# 编译示例2
sudo gcc -o chroot_example2 chroot_example2.c
sudo ./chroot_example2

# 编译示例3
sudo gcc -o chroot_example3 chroot_example3.c
sudo ./chroot_example3

# 编译示例4
sudo gcc -o chroot_example4 chroot_example4.c
sudo ./chroot_example4 create
sudo ./chroot_example4 shell

重要注意事项

权限要求: chroot需要CAP_SYS_CHROOT能力，通常需要root权限
安全性限制: chroot不是安全边界，不能完全防止逃逸
目录验证: 必须确保新根目录的安全性和完整性
文件描述符: chroot不影响已打开的文件描述符
符号链接: 注意处理符号链接可能带来的安全问题
设备文件: 需要正确创建必要的设备文件
库依赖: 确保所需的共享库在chroot环境中可用

最佳实践

权限最小化: 在chroot后尽快降低权限
环境清理: 清理不必要的环境变量和文件描述符
目录验证: 验证新根目录的完整性和安全性
设备文件: 只创建必要的设备文件
库依赖: 确保所有依赖库都在chroot环境中
监控审计: 监控chroot环境中的活动
定期更新: 定期更新chroot环境中的软件包

通过这些示例，你可以理解chroot在系统管理和安全隔离方面的应用，虽然现代容器技术已经提供了更好的解决方案，但chroot仍然是一个重要的系统管理工具。

chroot系统调用详解, chroot函数使用示例, linux chroot命令说明, chroot函数作用与用法, 如何使用chroot改变根目录, chroot系统调用原理, linux中chroot函数详解, chroot命令教程, chroot函数参数解释, chroot实现隔离环境方法

发表在 linux文章 | 留下评论

clock_adjtime、clock_getres、clock_gettime、clock_nanosleep、clock_settime系统调用及示例

发表于2025-08-06由麦芽爸

clock_adjtime – 调整时钟参数

函数介绍

clock_adjtime系统调用用于调整指定时钟的参数，主要用于精密时间同步。它可以设置时钟的频率调整、时间偏移等参数，常用于NTP客户端实现。

函数原型

#include <time.h>
#include <sys/timex.h>
#include <sys/syscall.h>
#include <unistd.h>

int clock_adjtime(clockid_t clk_id, struct timex *buf);

功能

调整指定时钟的参数，包括频率、时间偏移等，用于精密时间同步。

参数

clockid_t clk_id: 时钟ID
- CLOCK_REALTIME: 系统实时钟
- CLOCK_TAI: 国际原子时
struct timex *buf: 指向timex结构体的指针，包含调整参数

返回值

成功时返回状态码
失败时返回-1，并设置errno

特殊限制

需要CAP_SYS_TIME能力
通常需要root权限

相似函数

adjtimex(): 调整系统时钟
settimeofday(): 设置系统时间

示例代码

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/syscall.h>
#include <sys/timex.h>
#include <time.h>
#include <errno.h>
#include <string.h>

// 系统调用包装
static int clock_adjtime_wrapper(clockid_t clk_id, struct timex *buf) {
    return syscall(__NR_clock_adjtime, clk_id, buf);
}

int main() {
    struct timex tx;
    int result;
    
    printf("=== Clock_adjtime 函数示例 ===\n");
    printf("当前用户 UID: %d\n", getuid());
    printf("当前有效 UID: %d\n", geteuid());
    
    // 示例1: 获取当前时钟状态
    printf("\n示例1: 获取时钟状态\n");
    
    memset(&tx, 0, sizeof(tx));
    tx.modes = 0; // 仅查询状态
    
    result = clock_adjtime_wrapper(CLOCK_REALTIME, &tx);
    if (result == -1) {
        if (errno == EPERM) {
            printf("  权限不足获取时钟状态: %s\n", strerror(errno));
            printf("  说明: 需要CAP_SYS_TIME能力或root权限\n");
        } else {
            printf("  获取时钟状态失败: %s\n", strerror(errno));
        }
    } else {
        printf("  时钟状态获取成功\n");
        printf("  状态码: %d\n", result);
        printf("  频率偏移: %ld\n", tx.freq);
        printf("  最大误差: %ld\n", tx.maxerror);
        printf("  估计误差: %ld\n", tx.esterror);
    }
    
    // 示例2: 查询时钟参数（不修改）
    printf("\n示例2: 查询时钟参数\n");
    
    memset(&tx, 0, sizeof(tx));
    tx.modes = 0;
    
    result = clock_adjtime_wrapper(CLOCK_REALTIME, &tx);
    if (result != -1) {
        printf("  时钟参数:\n");
        printf("    状态: %d\n", tx.status);
        printf("    频率偏移: %ld ppm\n", tx.freq / 65536); // 转换为ppm
        printf("    时间常数: %ld\n", tx.constant);
        printf("    精度: %ld ns\n", tx.precision);
        printf("    容差: %ld ppm\n", tx.tolerance / 65536); // 转换为ppm
    }
    
    // 示例3: 错误处理演示
    printf("\n示例3: 错误处理演示\n");
    
    // 使用无效的时钟ID
    memset(&tx, 0, sizeof(tx));
    result = clock_adjtime_wrapper(999, &tx);
    if (result == -1) {
        if (errno == EINVAL) {
            printf("  无效时钟ID错误处理正确: %s\n", strerror(errno));
        }
    }
    
    // 使用无效的指针
    result = clock_adjtime_wrapper(CLOCK_REALTIME, NULL);
    if (result == -1) {
        if (errno == EFAULT) {
            printf("  无效指针错误处理正确: %s\n", strerror(errno));
        }
    }
    
    // 示例4: 时钟类型说明
    printf("\n示例4: 支持的时钟类型\n");
    printf("CLOCK_REALTIME: 系统实时钟（wall-clock time）\n");
    printf("  - 可以被手动设置\n");
    printf("  - 受NTP调整影响\n");
    printf("  - 用于日常时间表示\n\n");
    
    printf("CLOCK_TAI: 国际原子时\n");
    printf("  - 连续时间，无闰秒\n");
    printf("  - 与时钟实时相差固定偏移\n");
    printf("  - 用于精密时间计算\n\n");
    
    // 示例5: NTP相关参数说明
    printf("示例5: NTP相关参数说明\n");
    printf("timex结构体重要字段:\n");
    printf("  modes: 指定要设置的参数\n");
    printf("  offset: 时间偏移（纳秒）\n");
    printf("  freq: 频率偏移（scaled ppm）\n");
    printf("  maxerror: 最大误差估计\n");
    printf("  esterror: 误差估计\n");
    printf("  status: 时钟状态标志\n");
    printf("  constant: PLL时间常数\n");
    printf("  precision: 时钟精度\n");
    printf("  tolerance: 频率容差\n\n");
    
    // 示例6: 权限和安全考虑
    printf("示例6: 权限和安全考虑\n");
    printf("使用clock_adjtime需要:\n");
    printf("1. CAP_SYS_TIME能力\n");
    printf("2. 或者root权限\n");
    printf("3. 某些操作可能需要额外权限\n\n");
    
    printf("安全注意事项:\n");
    printf("1. 不当的时间调整可能影响系统稳定性\n");
    printf("2. 频率调整过大可能导致时间跳跃\n");
    printf("3. 应谨慎设置时间参数\n");
    printf("4. 建议使用NTP守护进程进行时间同步\n\n");
    
    // 示例7: 实际应用场景
    printf("示例7: 实际应用场景\n");
    printf("clock_adjtime主要用于:\n");
    printf("1. NTP客户端实现\n");
    printf("2. 精密时间同步服务\n");
    printf("3. 科学计算时间校准\n");
    printf("4. 金融系统时间同步\n");
    printf("5. 分布式系统时间协调\n\n");
    
    printf("典型使用流程:\n");
    printf("1. 查询当前时钟状态\n");
    printf("2. 计算需要的调整参数\n");
    printf("3. 应用调整参数\n");
    printf("4. 监控调整效果\n");
    printf("5. 必要时进行微调\n\n");
    
    printf("总结:\n");
    printf("clock_adjtime是用于精密时钟调整的系统调用\n");
    printf("主要用于NTP客户端和时间同步服务\n");
    printf("需要适当的权限才能使用\n");
    printf("不当使用可能导致系统时间异常\n");
    
    return 0;
}

clock_getres – 获取时钟精度

函数介绍

clock_getres系统调用用于获取指定时钟的精度（分辨率）。它返回时钟能够表示的最小时间间隔。

函数原型

#include <time.h>

int clock_getres(clockid_t clk_id, struct timespec *res);

功能

获取指定时钟的精度，即能够表示的最小时间间隔。

参数

clockid_t clk_id: 时钟ID
struct timespec *res: 指向timespec结构体的指针，用于存储精度信息

返回值

成功时返回0
失败时返回-1，并设置errno

特似函数

clock_gettime(): 获取时钟时间
gettimeofday(): 获取系统时间

示例代码

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <errno.h>
#include <string.h>

int main() {
    struct timespec res;
    int result;
    
    printf("=== Clock_getres 函数示例 ===\n");
    
    // 示例1: 获取各种时钟的精度
    printf("\n示例1: 不同时钟的精度\n");
    
    // CLOCK_REALTIME
    result = clock_getres(CLOCK_REALTIME, &res);
    if (result == -1) {
        printf("  CLOCK_REALTIME精度获取失败: %s\n", strerror(errno));
    } else {
        printf("  CLOCK_REALTIME精度: %ld.%09ld 秒\n", res.tv_sec, res.tv_nsec);
        printf("  即: %ld 纳秒\n", res.tv_nsec);
    }
    
    // CLOCK_MONOTONIC
    result = clock_getres(CLOCK_MONOTONIC, &res);
    if (result == -1) {
        printf("  CLOCK_MONOTONIC精度获取失败: %s\n", strerror(errno));
    } else {
        printf("  CLOCK_MONOTONIC精度: %ld.%09ld 秒\n", res.tv_sec, res.tv_nsec);
        printf("  即: %ld 纳秒\n", res.tv_nsec);
    }
    
    // CLOCK_PROCESS_CPUTIME_ID
    result = clock_getres(CLOCK_PROCESS_CPUTIME_ID, &res);
    if (result == -1) {
        printf("  CLOCK_PROCESS_CPUTIME_ID精度获取失败: %s\n", strerror(errno));
    } else {
        printf("  CLOCK_PROCESS_CPUTIME_ID精度: %ld.%09ld 秒\n", res.tv_sec, res.tv_nsec);
        printf("  即: %ld 纳秒\n", res.tv_nsec);
    }
    
    // CLOCK_THREAD_CPUTIME_ID
    result = clock_getres(CLOCK_THREAD_CPUTIME_ID, &res);
    if (result == -1) {
        printf("  CLOCK_THREAD_CPUTIME_ID精度获取失败: %s\n", strerror(errno));
    } else {
        printf("  CLOCK_THREAD_CPUTIME_ID精度: %ld.%09ld 秒\n", res.tv_sec, res.tv_nsec);
        printf("  即: %ld 纳秒\n", res.tv_nsec);
    }
    
    // 示例2: 错误处理演示
    printf("\n示例2: 错误处理演示\n");
    
    // 使用无效的时钟ID
    result = clock_getres(999, &res);
    if (result == -1) {
        if (errno == EINVAL) {
            printf("  无效时钟ID错误处理正确: %s\n", strerror(errno));
        }
    }
    
    // 使用NULL指针
    result = clock_getres(CLOCK_REALTIME, NULL);
    if (result == 0) {
        printf("  NULL指针参数被接受（用于查询时钟是否存在）\n");
    }
    
    // 示例3: 时钟类型说明
    printf("\n示例3: 支持的时钟类型\n");
    printf("CLOCK_REALTIME: 系统实时钟\n");
    printf("  - 可以被设置和调整\n");
    printf("  - 受NTP和手动调整影响\n");
    printf("  - 用于获取当前时间\n\n");
    
    printf("CLOCK_MONOTONIC: 单调时钟\n");
    printf("  - 不会倒退\n");
    printf("  - 不受系统时间调整影响\n");
    printf("  - 用于测量时间间隔\n\n");
    
    printf("CLOCK_PROCESS_CPUTIME_ID: 进程CPU时间\n");
    printf("  - 测量进程使用的CPU时间\n");
    printf("  - 通常有较高精度\n\n");
    
    printf("CLOCK_THREAD_CPUTIME_ID: 线程CPU时间\n");
    printf("  - 测量线程使用的CPU时间\n");
    printf("  - 用于性能分析\n\n");
    
    // 示例4: 精度对比
    printf("示例4: 不同时钟精度对比\n");
    
    clockid_t clocks[] = {
        CLOCK_REALTIME,
        CLOCK_MONOTONIC,
        CLOCK_PROCESS_CPUTIME_ID,
        CLOCK_THREAD_CPUTIME_ID
    };
    
    const char *clock_names[] = {
        "CLOCK_REALTIME",
        "CLOCK_MONOTONIC",
        "CLOCK_PROCESS_CPUTIME_ID",
        "CLOCK_THREAD_CPUTIME_ID"
    };
    
    for (int i = 0; i < 4; i++) {
        if (clock_getres(clocks[i], &res) == 0) {
            printf("  %-25s: %10ld ns\n", clock_names[i], res.tv_nsec);
        }
    }
    
    // 示例5: 实际应用演示
    printf("\n示例5: 实际应用演示\n");
    printf("时钟精度对程序设计的影响:\n");
    
    // 演示高精度计时
    struct timespec start, end, diff;
    if (clock_getres(CLOCK_MONOTONIC, &res) == 0) {
        printf("  使用CLOCK_MONOTONIC进行高精度计时:\n");
        printf("  理论精度: %ld 纳秒\n", res.tv_nsec);
        
        // 进行简单计时演示
        if (clock_gettime(CLOCK_MONOTONIC, &start) == 0) {
            // 执行一些操作
            volatile int sum = 0;
            for (int i = 0; i < 1000; i++) {
                sum += i;
            }
            
            if (clock_gettime(CLOCK_MONOTONIC, &end) == 0) {
                // 计算时间差
                if (end.tv_nsec < start.tv_nsec) {
                    diff.tv_sec = end.tv_sec - start.tv_sec - 1;
                    diff.tv_nsec = 1000000000 + end.tv_nsec - start.tv_nsec;
                } else {
                    diff.tv_sec = end.tv_sec - start.tv_sec;
                    diff.tv_nsec = end.tv_nsec - start.tv_nsec;
                }
                
                printf("  实际测量时间: %ld.%09ld 秒\n", diff.tv_sec, diff.tv_nsec);
            }
        }
    }
    
    // 示例6: 性能考虑
    printf("\n示例6: 性能考虑\n");
    printf("不同精度时钟的性能特点:\n");
    printf("1. 高精度时钟通常开销较大\n");
    printf("2. 需要在精度和性能间平衡\n");
    printf("3. 选择合适的时钟类型很重要\n");
    printf("4. 避免不必要的高精度要求\n\n");
    
    printf("时钟选择建议:\n");
    printf("- 一般计时: CLOCK_REALTIME\n");
    printf("- 性能测量: CLOCK_MONOTONIC\n");
    printf("- CPU使用率: CLOCK_PROCESS_CPUTIME_ID\n");
    printf("- 线程性能: CLOCK_THREAD_CPUTIME_ID\n\n");
    
    printf("总结:\n");
    printf("clock_getres用于查询时钟精度\n");
    printf("不同类型的时钟有不同的精度\n");
    printf("了解时钟精度有助于正确使用计时函数\n");
    printf("合理选择时钟类型可以提高程序性能\n");
    
    return 0;
}

clock_gettime – 获取时钟时间

函数介绍

clock_gettime系统调用用于获取指定时钟的当前时间。它比传统的gettimeofday提供了更高的精度和更多的时钟类型选择。

函数原型

#include <time.h>

int clock_gettime(clockid_t clk_id, struct timespec *tp);

功能

获取指定时钟的当前时间值。

参数

clockid_t clk_id: 时钟ID
struct timespec *tp: 指向timespec结构体的指针，用于存储时间信息

返回值

成功时返回0
失败时返回-1，并设置errno

相似函数

gettimeofday(): 获取系统时间
time(): 获取秒级时间
clock_getres(): 获取时钟精度

示例代码

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <errno.h>
#include <string.h>
#include <unistd.h>

int main() {
    struct timespec ts;
    int result;
    
    printf("=== Clock_gettime 函数示例 ===\n");
    
    // 示例1: 获取各种时钟的时间
    printf("\n示例1: 不同时钟的时间\n");
    
    // CLOCK_REALTIME
    result = clock_gettime(CLOCK_REALTIME, &ts);
    if (result == -1) {
        printf("  CLOCK_REALTIME时间获取失败: %s\n", strerror(errno));
    } else {
        printf("  CLOCK_REALTIME时间: %ld.%09ld 秒\n", ts.tv_sec, ts.tv_nsec);
        printf("  对应日期: %s", ctime(&ts.tv_sec));
    }
    
    // CLOCK_MONOTONIC
    result = clock_gettime(CLOCK_MONOTONIC, &ts);
    if (result == -1) {
        printf("  CLOCK_MONOTONIC时间获取失败: %s\n", strerror(errno));
    } else {
        printf("  CLOCK_MONOTONIC时间: %ld.%09ld 秒\n", ts.tv_sec, ts.tv_nsec);
    }
    
    // CLOCK_PROCESS_CPUTIME_ID
    result = clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &ts);
    if (result == -1) {
        printf("  CLOCK_PROCESS_CPUTIME_ID时间获取失败: %s\n", strerror(errno));
    } else {
        printf("  进程CPU时间: %ld.%09ld 秒\n", ts.tv_sec, ts.tv_nsec);
    }
    
    // CLOCK_THREAD_CPUTIME_ID
    result = clock_gettime(CLOCK_THREAD_CPUTIME_ID, &ts);
    if (result == -1) {
        printf("  CLOCK_THREAD_CPUTIME_ID时间获取失败: %s\n", strerror(errno));
    } else {
        printf("  线程CPU时间: %ld.%09ld 秒\n", ts.tv_sec, ts.tv_nsec);
    }
    
    // 示例2: 高精度计时演示
    printf("\n示例2: 高精度计时演示\n");
    
    struct timespec start, end, elapsed;
    
    // 使用CLOCK_MONOTONIC进行计时
    if (clock_gettime(CLOCK_MONOTONIC, &start) == -1) {
        perror("  获取开始时间失败");
    } else {
        printf("  开始时间: %ld.%09ld 秒\n", start.tv_sec, start.tv_nsec);
        
        // 执行一些操作
        printf("  执行计算操作...\n");
        volatile long sum = 0;
        for (long i = 0; i < 1000000; i++) {
            sum += i;
        }
        
        if (clock_gettime(CLOCK_MONOTONIC, &end) == -1) {
            perror("  获取结束时间失败");
        } else {
            printf("  结束时间: %ld.%09ld 秒\n", end.tv_sec, end.tv_nsec);
            
            // 计算耗时
            if (end.tv_nsec < start.tv_nsec) {
                elapsed.tv_sec = end.tv_sec - start.tv_sec - 1;
                elapsed.tv_nsec = 1000000000 + end.tv_nsec - start.tv_nsec;
            } else {
                elapsed.tv_sec = end.tv_sec - start.tv_sec;
                elapsed.tv_nsec = end.tv_nsec - start.tv_nsec;
            }
            
            printf("  计算耗时: %ld.%09ld 秒\n", elapsed.tv_sec, elapsed.tv_nsec);
            printf("  即: %ld 纳秒\n", elapsed.tv_sec * 1000000000 + elapsed.tv_nsec);
        }
    }
    
    // 示例3: 错误处理演示
    printf("\n示例3: 错误处理演示\n");
    
    // 使用无效的时钟ID
    result = clock_gettime(999, &ts);
    if (result == -1) {
        if (errno == EINVAL) {
            printf("  无效时钟ID错误处理正确: %s\n", strerror(errno));
        }
    }
    
    // 使用NULL指针
    result = clock_gettime(CLOCK_REALTIME, NULL);
    if (result == -1) {
        if (errno == EFAULT) {
            printf("  NULL指针错误处理正确: %s\n", strerror(errno));
        }
    }
    
    // 示例4: 时间格式转换
    printf("\n示例4: 时间格式转换\n");
    
    if (clock_gettime(CLOCK_REALTIME, &ts) == 0) {
        printf("  原始时间: %ld.%09ld 秒\n", ts.tv_sec, ts.tv_nsec);
        
        // 转换为毫秒
        long milliseconds = ts.tv_sec * 1000 + ts.tv_nsec / 1000000;
        printf("  毫秒表示: %ld ms\n", milliseconds);
        
        // 转换为微秒
        long microseconds = ts.tv_sec * 1000000 + ts.tv_nsec / 1000;
        printf("  微秒表示: %ld μs\n", microseconds);
        
        // 转换为纳秒
        long long nanoseconds = (long long)ts.tv_sec * 1000000000 + ts.tv_nsec;
        printf("  纳秒表示: %lld ns\n", nanoseconds);
    }
    
    // 示例5: 不同时钟的特性对比
    printf("\n示例5: 不同时钟特性对比\n");
    
    printf("CLOCK_REALTIME特性:\n");
    printf("  - 表示实际时间（墙上时钟）\n");
    printf("  - 可以被系统管理员修改\n");
    printf("  - 受NTP同步影响\n");
    printf("  - 适用于获取当前日期时间\n\n");
    
    printf("CLOCK_MONOTONIC特性:\n");
    printf("  - 单调递增，不会倒退\n");
    printf("  - 不受系统时间调整影响\n");
    printf("  - 适用于测量时间间隔\n");
    printf("  - 进程启动时通常为0\n\n");
    
    printf("CLOCK_PROCESS_CPUTIME_ID特性:\n");
    printf("  - 测量进程使用的CPU时间\n");
    printf("  - 包括所有线程的CPU时间\n");
    printf("  - 不包括睡眠时间\n");
    printf("  - 适用于性能分析\n\n");
    
    printf("CLOCK_THREAD_CPUTIME_ID特性:\n");
    printf("  - 测量当前线程使用的CPU时间\n");
    printf("  - 不包括睡眠时间\n");
    printf("  - 适用于线程性能分析\n\n");
    
    // 示例6: 实际应用场景
    printf("示例6: 实际应用场景\n");
    
    // 场景1: 性能基准测试
    printf("场景1: 性能基准测试\n");
    if (clock_gettime(CLOCK_MONOTONIC, &start) == 0) {
        // 模拟算法执行
        volatile int dummy = 0;
        for (int i = 0; i < 1000000; i++) {
            dummy += i * i;
        }
        
        if (clock_gettime(CLOCK_MONOTONIC, &end) == 0) {
            long long duration = (end.tv_sec - start.tv_sec) * 1000000000LL + 
                               (end.tv_nsec - start.tv_nsec);
            printf("  算法执行时间: %lld 纳秒\n", duration);
        }
    }
    
    // 场景2: 超时控制
    printf("\n场景2: 超时控制\n");
    if (clock_gettime(CLOCK_MONOTONIC, &start) == 0) {
        long timeout_ns = 5000000000LL; // 5秒超时
        
        // 模拟等待操作
        while (1) {
            if (clock_gettime(CLOCK_MONOTONIC, &ts) == 0) {
                long long elapsed = (ts.tv_sec - start.tv_sec) * 1000000000LL + 
                                  (ts.tv_nsec - start.tv_nsec);
                if (elapsed >= timeout_ns) {
                    printf("  操作超时（5秒）\n");
                    break;
                }
            }
            usleep(100000); // 休眠100ms
        }
    }
    
    // 场景3: CPU使用率监控
    printf("\n场景3: CPU使用率监控\n");
    struct timespec cpu_start, cpu_end;
    struct timespec wall_start, wall_end;
    
    if (clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &cpu_start) == 0 &&
        clock_gettime(CLOCK_MONOTONIC, &wall_start) == 0) {
        
        // 执行一些CPU密集型操作
        volatile double result = 1.0;
        for (int i = 0; i < 1000000; i++) {
            result *= 1.000001;
        }
        
        if (clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &cpu_end) == 0 &&
            clock_gettime(CLOCK_MONOTONIC, &wall_end) == 0) {
            
            long long cpu_time = (cpu_end.tv_sec - cpu_start.tv_sec) * 1000000000LL + 
                               (cpu_end.tv_nsec - cpu_start.tv_nsec);
            long long wall_time = (wall_end.tv_sec - wall_start.tv_sec) * 1000000000LL + 
                                (wall_end.tv_nsec - wall_start.tv_nsec);
            
            double cpu_usage = (double)cpu_time / wall_time * 100;
            printf("  CPU使用率: %.2f%%\n", cpu_usage);
            printf("  CPU时间: %lld 纳秒\n", cpu_time);
            printf("  墙钟时间: %lld 纳秒\n", wall_time);
        }
    }
    
    // 示例7: 时区和本地时间
    printf("\n示例7: 时区和本地时间\n");
    
    if (clock_gettime(CLOCK_REALTIME, &ts) == 0) {
        printf("  UTC时间: %ld.%09ld\n", ts.tv_sec, ts.tv_nsec);
        
        // 转换为本地时间
        struct tm *local_tm = localtime(&ts.tv_sec);
        if (local_tm) {
            char time_str[100];
            strftime(time_str, sizeof(time_str), "%Y-%m-%d %H:%M:%S", local_tm);
            printf("  本地时间: %s.%09ld\n", time_str, ts.tv_nsec);
        }
    }
    
    printf("\n总结:\n");
    printf("clock_gettime是现代Linux系统中推荐的高精度计时函数\n");
    printf("支持多种时钟类型，满足不同应用场景需求\n");
    printf("提供纳秒级精度，优于传统的time和gettimeofday函数\n");
    printf("正确使用时钟类型对程序性能和正确性很重要\n");
    
    return 0;
}

clock_nanosleep – 高精度睡眠

函数介绍

clock_nanosleep系统调用提供纳秒级精度的睡眠功能，支持绝对时间和相对时间两种模式，比传统的nanosleep更加灵活。

函数原型

#include <time.h>

int clock_nanosleep(clockid_t clock_id, int flags,
                    const struct timespec *request,
                    struct timespec *remain);

功能

使进程睡眠指定的时间，支持高精度纳秒级睡眠。

参数

clockid_t clock_id: 时钟ID
int flags: 标志位
- 0: 相对时间睡眠
- TIMER_ABSTIME: 绝对时间睡眠
const struct timespec *request: 请求睡眠的时间
struct timespec *remain: 剩余时间（被信号中断时）

返回值

成功时返回0
被信号中断时返回-1，并设置errno为EINTR
失败时返回-1，并设置其他errno

相似函数

nanosleep(): 纳秒级睡眠
sleep(): 秒级睡眠
usleep(): 微秒级睡眠

示例代码

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <errno.h>
#include <string.h>
#include <signal.h>
#include <unistd.h>

// 信号处理函数
void signal_handler(int sig) {
    printf("  接收到信号 %d\n", sig);
}

int main() {
    struct timespec request, remain, start, end;
    int result;
    
    printf("=== Clock_nanosleep 函数示例 ===\n");
    
    // 示例1: 相对时间睡眠
    printf("\n示例1: 相对时间睡眠\n");
    
    // 睡眠100毫秒
    request.tv_sec = 0;
    request.tv_nsec = 100000000; // 100毫秒 = 100,000,000纳秒
    
    if (clock_gettime(CLOCK_MONOTONIC, &start) == -1) {
        perror("  获取开始时间失败");
    }
    
    printf("  开始睡眠: %ld.%09ld 秒\n", start.tv_sec, start.tv_nsec);
    result = clock_nanosleep(CLOCK_MONOTONIC, 0, &request, NULL);
    
    if (result == -1) {
        if (errno == EINTR) {
            printf("  睡眠被信号中断\n");
        } else {
            printf("  睡眠失败: %s\n", strerror(errno));
        }
    } else {
        printf("  睡眠完成\n");
        if (clock_gettime(CLOCK_MONOTONIC, &end) == -1) {
            perror("  获取结束时间失败");
        } else {
            long long actual_sleep = (end.tv_sec - start.tv_sec) * 1000000000LL + 
                                   (end.tv_nsec - start.tv_nsec);
            printf("  实际睡眠时间: %lld 纳秒\n", actual_sleep);
        }
    }
    
    // 示例2: 绝对时间睡眠
    printf("\n示例2: 绝对时间睡眠\n");
    
    // 获取当前时间
    if (clock_gettime(CLOCK_REALTIME, &start) == 0) {
        printf("  当前时间: %ld.%09ld 秒\n", start.tv_sec, start.tv_nsec);
        
        // 设置绝对睡眠时间（当前时间+2秒）
        struct timespec absolute_time;
        absolute_time.tv_sec = start.tv_sec + 2;
        absolute_time.tv_nsec = start.tv_nsec;
        
        printf("  绝对睡眠时间: %ld.%09ld 秒\n", absolute_time.tv_sec, absolute_time.tv_nsec);
        
        result = clock_nanosleep(CLOCK_REALTIME, TIMER_ABSTIME, &absolute_time, NULL);
        if (result == -1) {
            if (errno == EINTR) {
                printf("  绝对时间睡眠被信号中断\n");
            } else {
                printf("  绝对时间睡眠失败: %s\n", strerror(errno));
            }
        } else {
            printf("  绝对时间睡眠完成\n");
        }
    }
    
    // 示例3: 被信号中断的睡眠
    printf("\n示例3: 被信号中断的睡眠\n");
    
    // 设置信号处理
    signal(SIGUSR1, signal_handler);
    
    // 启动另一个线程发送信号
    pid_t pid = fork();
    if (pid == 0) {
        // 子进程：延迟发送信号
        sleep(1);
        kill(getppid(), SIGUSR1);
        exit(0);
    } else if (pid > 0) {
        // 父进程：长时间睡眠
        request.tv_sec = 5;
        request.tv_nsec = 0;
        
        printf("  开始5秒睡眠，1秒后会被信号中断\n");
        result = clock_nanosleep(CLOCK_MONOTONIC, 0, &request, &remain);
        
        if (result == -1 && errno == EINTR) {
            printf("  睡眠被信号中断\n");
            printf("  剩余时间: %ld.%09ld 秒\n", remain.tv_sec, remain.tv_nsec);
        }
        
        wait(NULL); // 等待子进程结束
    }
    
    // 示例4: 错误处理演示
    printf("\n示例4: 错误处理演示\n");
    
    // 使用无效的时钟ID
    request.tv_sec = 1;
    request.tv_nsec = 0;
    result = clock_nanosleep(999, 0, &request, NULL);
    if (result == -1) {
        if (errno == EINVAL) {
            printf("  无效时钟ID错误处理正确: %s\n", strerror(errno));
        }
    }
    
    // 使用无效的时间值
    request.tv_sec = -1;
    request.tv_nsec = 0;
    result = clock_nanosleep(CLOCK_MONOTONIC, 0, &request, NULL);
    if (result == -1) {
        if (errno == EINVAL) {
            printf("  无效时间值错误处理正确: %s\n", strerror(errno));
        }
    }
    
    // 使用过大的纳秒值
    request.tv_sec = 0;
    request.tv_nsec = 1000000000; // 10亿纳秒 = 1秒，但应该 < 1秒
    result = clock_nanosleep(CLOCK_MONOTONIC, 0, &request, NULL);
    if (result == -1) {
        if (errno == EINVAL) {
            printf("  纳秒值过大错误处理正确: %s\n", strerror(errno));
        }
    }
    
    // 示例5: 不同时钟的睡眠效果
    printf("\n示例5: 不同时钟的睡眠效果\n");
    
    printf("CLOCK_REALTIME睡眠:\n");
    printf("  - 基于系统实时时间\n");
    printf("  - 受系统时间调整影响\n");
    printf("  - 适用于绝对时间睡眠\n\n");
    
    printf("CLOCK_MONOTONIC睡眠:\n");
    printf("  - 基于单调递增时间\n");
    printf("  - 不受系统时间调整影响\n");
    printf("  - 适用于相对时间睡眠\n\n");
    
    // 示例6: 高精度定时器演示
    printf("示例6: 高精度定时器演示\n");
    
    printf("创建100毫秒间隔的定时器循环:\n");
    struct timespec interval;
    interval.tv_sec = 0;
    interval.tv_nsec = 100000000; // 100毫秒
    
    for (int i = 0; i < 5; i++) {
        if (clock_gettime(CLOCK_MONOTONIC, &start) == 0) {
            printf("  第%d次: 时间 %ld.%09ld\n", i+1, start.tv_sec, start.tv_nsec);
        }
        
        result = clock_nanosleep(CLOCK_MONOTONIC, 0, &interval, NULL);
        if (result == -1) {
            if (errno == EINTR) {
                printf("  第%d次: 睡眠被中断\n", i+1);
                break;
            }
        }
    }
    
    // 示例7: 睡眠精度测试
    printf("\n示例7: 睡眠精度测试\n");
    
    struct timespec sleep_times[] = {
        {0, 1000},      // 1微秒
        {0, 10000},     // 10微秒
        {0, 100000},    // 100微秒
        {0, 1000000},   // 1毫秒
        {0, 10000000},  // 10毫秒
        {0, 100000000}, // 100毫秒
        {1, 0}          // 1秒
    };
    
    const char *time_labels[] = {
        "1微秒", "10微秒", "100微秒", "1毫秒", "10毫秒", "100毫秒", "1秒"
    };
    
    printf("睡眠精度测试结果:\n");
    for (int i = 0; i < 7; i++) {
        if (clock_gettime(CLOCK_MONOTONIC, &start) == 0) {
            result = clock_nanosleep(CLOCK_MONOTONIC, 0, &sleep_times[i], NULL);
            if (clock_gettime(CLOCK_MONOTONIC, &end) == 0) {
                long long actual = (end.tv_sec - start.tv_sec) * 1000000000LL + 
                                 (end.tv_nsec - start.tv_nsec);
                long long requested = sleep_times[i].tv_sec * 1000000000LL + 
                                    sleep_times[i].tv_nsec;
                long long diff = actual - requested;
                
                printf("  %-8s: 请求%8lld ns, 实际%8lld ns, 误差%+6lld ns\n",
                       time_labels[i], requested, actual, diff);
            }
        }
    }
    
    // 示例8: 实际应用场景
    printf("\n示例8: 实际应用场景\n");
    
    // 场景1: 实时系统定时
    printf("场景1: 实时系统定时\n");
    printf("在实时应用中确保精确的时间间隔\n");
    
    // 场景2: 性能基准测试
    printf("\n场景2: 性能基准测试\n");
    printf("提供精确的延迟控制用于性能测试\n");
    
    // 场景3: 动画和游戏循环
    printf("\n场景3: 动画和游戏循环\n");
    printf("维持稳定的帧率和更新频率\n");
    
    // 场景4: 网络超时控制
    printf("\n场景4: 网络超时控制\n");
    printf("实现精确的网络操作超时机制\n");
    
    printf("\n总结:\n");
    printf("clock_nanosleep提供纳秒级精度的睡眠功能\n");
    printf("支持相对时间和绝对时间两种模式\n");
    printf("比传统sleep函数更加灵活和精确\n");
    printf("正确处理信号中断和剩余时间计算\n");
    printf("适用于需要高精度时间控制的应用场景\n");
    
    return 0;
}

clock_settime – 设置时钟时间

函数介绍

clock_settime系统调用用于设置指定时钟的时间值。它允许程序修改系统时钟，主要用于时间同步和系统管理。

函数原型

#include <time.h>

int clock_settime(clockid_t clk_id, const struct timespec *tp);

功能

设置指定时钟的时间值。

参数

clockid_t clk_id: 时钟ID（通常为CLOCK_REALTIME）
const struct timespec *tp: 指向timespec结构体的指针，包含新的时间值

返回值

成功时返回0
失败时返回-1，并设置errno

特殊限制

需要CAP_SYS_TIME能力或root权限
通常只能设置CLOCK_REALTIME时钟

相似函数

settimeofday(): 设置系统时间
stime(): 设置系统时间（已废弃）

示例代码

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <errno.h>
#include <string.h>
#include <unistd.h>

int main() {
    struct timespec current_time, new_time;
    int result;
    
    printf("=== Clock_settime 函数示例 ===\n");
    printf("当前用户 UID: %d\n", getuid());
    printf("当前有效 UID: %d\n", geteuid());
    
    // 示例1: 获取当前时间
    printf("\n示例1: 获取当前时间\n");
    
    if (clock_gettime(CLOCK_REALTIME, &current_time) == -1) {
        perror("  获取当前时间失败");
    } else {
        printf("  当前系统时间: %ld.%09ld 秒\n", current_time.tv_sec, current_time.tv_nsec);
        printf("  对应日期: %s", ctime(&current_time.tv_sec));
    }
    
    // 示例2: 权限检查
    printf("\n示例2: 权限检查\n");
    
    // 尝试设置时间（通常会失败）
    new_time.tv_sec = current_time.tv_sec;
    new_time.tv_nsec = current_time.tv_nsec;
    
    result = clock_settime(CLOCK_REALTIME, &new_time);
    if (result == -1) {
        if (errno == EPERM) {
            printf("  权限不足设置时间: %s\n", strerror(errno));
            printf("  说明: 需要CAP_SYS_TIME能力或root权限\n");
        } else {
            printf("  设置时间失败: %s\n", strerror(errno));
        }
    } else {
        printf("  时间设置成功\n");
    }
    
    // 示例3: 错误处理演示
    printf("\n示例3: 错误处理演示\n");
    
    // 使用无效的时钟ID
    result = clock_settime(999, &new_time);
    if (result == -1) {
        if (errno == EINVAL) {
            printf("  无效时钟ID错误处理正确: %s\n", strerror(errno));
        }
    }
    
    // 使用无效的时间值
    struct timespec invalid_time;
    invalid_time.tv_sec = -1;
    invalid_time.tv_nsec = 0;
    
    result = clock_settime(CLOCK_REALTIME, &invalid_time);
    if (result == -1) {
        if (errno == EINVAL) {
            printf("  无效时间值错误处理正确: %s\n", strerror(errno));
        }
    }
    
    // 使用过大的纳秒值
    invalid_time.tv_sec = current_time.tv_sec;
    invalid_time.tv_nsec = 1000000000; // 10亿纳秒，应该 < 1秒
    
    result = clock_settime(CLOCK_REALTIME, &invalid_time);
    if (result == -1) {
        if (errno == EINVAL) {
            printf("  纳秒值过大错误处理正确: %s\n", strerror(errno));
        }
    }
    
    // 使用NULL指针
    result = clock_settime(CLOCK_REALTIME, NULL);
    if (result == -1) {
        if (errno == EFAULT) {
            printf("  NULL指针错误处理正确: %s\n", strerror(errno));
        }
    }
    
    // 示例4: 支持的时钟类型
    printf("\n示例4: 支持的时钟类型\n");
    
    printf("CLOCK_REALTIME:\n");
    printf("  - 系统实时钟\n");
    printf("  - 可以被设置\n");
    printf("  - 用于表示当前时间\n\n");
    
    printf("其他时钟类型:\n");
    printf("  - CLOCK_MONOTONIC: 通常不能设置\n");
    printf("  - CLOCK_PROCESS_CPUTIME_ID: 不能设置\n");
    printf("  - CLOCK_THREAD_CPUTIME_ID: 不能设置\n\n");
    
    // 示例5: 时间格式转换
    printf("示例5: 时间格式转换\n");
    
    if (clock_gettime(CLOCK_REALTIME, &current_time) == 0) {
        printf("  当前时间: %ld.%09ld 秒\n", current_time.tv_sec, current_time.tv_nsec);
        
        // 从日期字符串转换为time_t
        struct tm time_info;
        strptime("2024-01-01 12:00:00", "%Y-%m-%d %H:%M:%S", &time_info);
        time_t new_time_t = mktime(&time_info);
        
        printf("  转换时间: %s", ctime(&new_time_t));
        
        // 转换为timespec格式
        struct timespec converted_time;
        converted_time.tv_sec = new_time_t;
        converted_time.tv_nsec = 0;
        
        printf("  timespec格式: %ld.%09ld 秒\n", converted_time.tv_sec, converted_time.tv_nsec);
    }
    
    // 示例6: 时区考虑
    printf("\n示例6: 时区考虑\n");
    
    if (clock_gettime(CLOCK_REALTIME, &current_time) == 0) {
        printf("  UTC时间: %ld.%09ld 秒\n", current_time.tv_sec, current_time.tv_nsec);
        
        // 获取本地时区偏移
        struct tm *utc_tm = gmtime(&current_time.tv_sec);
        struct tm *local_tm = localtime(&current_time.tv_sec);
        
        time_t utc_time = mktime(utc_tm);
        time_t local_time = mktime(local_tm);
        
        long tz_offset = local_time - utc_time;
        printf("  时区偏移: %+ld 秒\n", tz_offset);
    }
    
    // 示例7: 安全考虑
    printf("\n示例7: 安全考虑\n");
    printf("使用clock_settime的安全注意事项:\n");
    printf("1. 需要适当的权限（CAP_SYS_TIME或root）\n");
    printf("2. 不当的时间设置可能影响系统稳定性\n");
    printf("3. 时间跳跃可能影响依赖时间的应用程序\n");
    printf("4. 应该使用NTP等标准时间同步服务\n");
    printf("5. 在生产环境中谨慎使用\n\n");
    
    // 示例8: 实际应用场景
    printf("示例8: 实际应用场景\n");
    
    // 场景1: NTP客户端
    printf("场景1: NTP客户端\n");
    printf("  - 从NTP服务器获取时间\n");
    printf("  - 调整系统时钟\n");
    printf("  - 保持时间同步\n\n");
    
    // 场景2: 系统初始化
    printf("场景2: 系统初始化\n");
    printf("  - 设置初始系统时间\n");
    printf("  - 从硬件时钟同步\n");
    printf("  - 恢复时间设置\n\n");
    
    // 场景3: 调试和测试
    printf("场景3: 调试和测试\n");
    printf("  - 设置特定时间进行测试\n");
    printf("  - 模拟时间相关场景\n");
    printf("  - 性能基准测试\n\n");
    
    // 场景4: 时间同步服务
    printf("场景4: 时间同步服务\n");
    printf("  - 分布式系统时间协调\n");
    printf("  - 数据库事务时间戳\n");
    printf("  - 日志时间同步\n\n");
    
    // 示例9: 替代方案
    printf("示例9: 替代方案\n");
    printf("现代时间管理推荐使用:\n");
    printf("1. NTP守护进程（ntpd）\n");
    printf("2. systemd-timesyncd\n");
    printf("3. chrony\n");
    printf("4. chronyd\n");
    printf("5. 避免手动设置系统时间\n\n");
    
    printf("总结:\n");
    printf("clock_settime用于设置系统时钟时间\n");
    printf("需要适当的权限才能使用\n");
    printf("主要用于时间同步服务\n");
    printf("不当使用可能影响系统稳定性\n");
    printf("推荐使用标准的时间同步服务\n");
    
    return 0;
}

发表在 linux文章 | 留下评论

clone系统调用及示例

发表于2025-08-06由麦芽爸

我们继续介绍下一个函数。在 getsockopt 之后，根据您提供的列表，下一个函数是 clone。

clone 函数

1. 函数介绍

clone 是一个 Linux 特有的系统调用，它提供了一种非常灵活且底层的方式来创建新的进程或线程。它比标准的 fork 函数更加强大和复杂，允许调用者精确地控制子进程（或线程）与父进程（调用进程）之间共享哪些资源（如虚拟内存空间、文件描述符表、信号处理程序表等）。

你可以把 clone 想象成一个高度可定制的复制品制造机：

你有一个原始对象（父进程）。
你可以告诉机器（clone）：复制这个对象，但让新对象（子进程）和原对象共享某些部件（如内存、文件），而独立拥有另一些部件（如寄存器状态、栈）。
通过设置不同的参数，你可以制造出几乎完全独立的副本（类似 fork），或者共享大量资源的紧密副本（类似线程）。

实际上，Linux 上的 pthread 线程库在底层就是通过调用 clone 来创建线程的。

2. 函数原型

#define _GNU_SOURCE // 必须定义以使用 clone
#include <sched.h>  // 必需
#include <signal.h> // 定义了 SIGCHLD 等常量

// 标准形式 (通过宏定义)
int clone(int (*fn)(void *), void *stack, int flags, void *arg, ...
         /* pid_t *parent_tid, void *tls, pid_t *child_tid */ );

// 更底层的系统调用形式 (通常由库函数包装)
long syscall(SYS_clone, unsigned long flags, void *stack,
             int *parent_tid, int *child_tid, unsigned long tls);

注意: clone 的接口比较复杂，并且存在不同版本。上面展示的是最常用的、由 glibc 提供的包装函数形式。

3. 功能

创建新执行流: 创建一个新的执行流（可以看作一个轻量级进程或线程）。
控制资源共享: 通过 flags 参数，精确控制新创建的执行流与调用者共享哪些内核资源。
指定执行函数: 与 pthread_create 类似，clone 允许你指定一个函数 fn，新创建的执行流将从该函数开始执行。
指定栈空间: 调用者必须为新执行流提供一块栈空间（通过 stack 参数），这与 pthread_create 自动分配栈不同。
传递参数: 可以通过 arg 参数向新执行流的入口函数 fn 传递一个参数。

4. 参数

由于 clone 的复杂性，我们重点介绍 glibc 包装函数的常用参数：

int (*fn)(void *): 这是一个函数指针，指向新创建的执行流将要执行的入口函数。
- 该函数接受一个 void * 类型的参数，并返回一个 int 类型的值。
- 当这个函数返回时，新创建的执行流（子进程/线程）就会终止。
void *stack: 这是一个指针，指向为新执行流分配的栈空间的顶部（高地址）。
- 非常重要: 调用者必须自己分配并管理这块栈内存。clone 不会自动分配。
- 栈是从高地址向低地址增长的，所以这个指针应该指向分配的栈空间的末尾。
int flags: 这是最重要的参数，是一个位掩码（bitmask），用于指定新执行流与父进程共享哪些资源。常用的标志包括：
- CLONE_VM: 共享虚拟内存空间。如果设置，子进程和父进程将运行在同一个内存地址空间中（类似线程）。
- CLONE_FS: 共享文件系统信息（根目录、当前工作目录等）。
- CLONE_FILES: 共享文件描述符表。如果设置，子进程将继承父进程打开的文件描述符，并且后续在任一进程中打开/关闭文件都会影响另一个。
- CLONE_SIGHAND: 共享信号处理程序表。如果设置，子进程将继承父进程的信号处理设置。
- CLONE_PTRACE: 如果父进程正在被跟踪（ptrace），则子进程也将被跟踪。
- CLONE_VFORK: 暂停父进程的执行，直到子进程调用 exec 或 _exit。这模拟了 vfork 的语义。
- CLONE_PARENT: 新子进程的父进程将是调用进程的父进程，而不是调用进程本身。
- CLONE_THREAD: 将子进程置于调用进程的线程组中。这通常与 CLONE_VM, CLONE_FS, CLONE_FILES, CLONE_SIGHAND 一起使用来创建线程。
- CLONE_NEW* (如 CLONE_NEWNS, CLONE_NEWUSER): 用于创建命名空间（Namespace），这是容器技术（如 Docker）的基础。
- SIGCHLD: 这不是一个 CLONE_* 标志，但它经常与 clone 一起使用（按位或 |）。它指定当子进程退出时，应向父进程发送 SIGCHLD 信号。
void *arg: 这是一个通用指针，它将作为参数传递给入口函数 fn。
... (可变参数): 后面可能还有几个参数，用于更高级的用途（如设置线程本地存储 TLS、获取子进程 ID 等），在基础使用中通常可以忽略或传入 NULL。

5. 返回值

clone 的返回值比较特殊，因为它在父进程和子进程（新创建的执行流）中是不同的：

在父进程中:
- 如果成功，返回新创建子进程的**线程 ID **(Thread ID, TID)。在 Linux 中，TID 通常与 PID 相同（对于主线程），但对于使用 CLONE_THREAD 创建的线程，它们有相同的 PID 但不同的 TID。
- 如果失败，返回 -1，并设置 errno。
在子进程中 (新创建的执行流):
- 直接执行 fn(arg) 函数。
- fn 函数的返回值将成为 clone 系统调用在子进程中的返回值。
- 如果 fn 函数返回，子进程通常应该调用 _exit() 而不是 exit() 来终止，以避免刷新 stdio 缓冲区等可能影响父进程的操作。

6. 相似函数，或关联函数

fork: 创建一个新进程，子进程是父进程的一个完整副本，拥有独立的资源。clone 可以通过不设置任何共享标志来模拟 fork 的行为。
vfork: 类似于 fork，但在子进程调用 exec 或 _exit 之前会暂停父进程。clone 可以通过设置 CLONE_VFORK 标志来模拟 vfork。
pthread_create: POSIX 线程库函数，用于创建线程。在 Linux 上，它底层就是调用 clone，并自动处理栈分配、设置共享标志等。
_exit: 子进程在 fn 函数中执行完毕后，应调用 _exit 退出。
wait / waitpid: 父进程可以使用这些函数来等待由 clone（设置了 SIGCHLD）创建的子进程结束。

7. 示例代码

示例 1：使用 `clone` 模拟 `fork` (不共享任何资源)

这个例子演示了如何使用 clone 来创建一个与父进程几乎完全独立的子进程，效果类似于 fork。

// clone_fork_like.c
#define _GNU_SOURCE // 必须定义以使用 clone
#include <sched.h>  // clone
#include <sys/wait.h> // waitpid
#include <unistd.h>   // getpid
#include <stdio.h>    // printf, perror
#include <stdlib.h>   // exit, malloc, free
#include <signal.h>   // SIGCHLD
#include <string.h>   // strerror
#include <errno.h>    // errno

#define STACK_SIZE (1024 * 1024) // 1MB 栈空间

// 子进程要执行的函数
int child_function(void *arg) {
    char *msg = (char *)arg;
    printf("Child process (TID: %d) executing.\n", getpid());
    printf("Child received message: %s\n", msg);

    // 子进程可以执行自己的任务
    for (int i = 0; i < 3; ++i) {
        printf("  Child working... %d\n", i);
        sleep(1);
    }

    printf("Child process (TID: %d) finished.\n", getpid());
    // 子进程结束，返回值将成为 clone 在子进程中的返回值
    return 42;
}

int main() {
    char *stack;          // 指向栈空间的指针
    char *stack_top;      // 指向栈顶的指针 (clone 需要)
    pid_t ctid;           // 子进程的 TID

    // 1. 为子进程分配栈空间
    // 注意：栈是从高地址向低地址增长的
    stack = malloc(STACK_SIZE);
    if (stack == NULL) {
        perror("malloc stack failed");
        exit(EXIT_FAILURE);
    }
    // stack 指向分配内存的起始地址
    // stack_top 应该指向内存的末尾地址
    stack_top = stack + STACK_SIZE;

    printf("Parent process (PID: %d) starting.\n", getpid());

    // 2. 调用 clone 创建子进程
    // flags = SIGCHLD: 子进程退出时发送 SIGCHLD 信号给父进程
    //         (没有设置 CLONE_VM, CLONE_FILES 等，所以资源不共享，类似 fork)
    ctid = clone(child_function, stack_top, SIGCHLD, "Hello from parent to child!");
    // 注意：这里的 SIGCHLD 是一个常见的用法，表示子进程结束后通知父进程

    if (ctid == -1) {
        perror("clone failed");
        free(stack);
        exit(EXIT_FAILURE);
    }

    printf("Parent process (PID: %d) created child with TID: %d\n", getpid(), ctid);

    // 3. 父进程继续执行自己的任务
    printf("Parent process doing its own work...\n");
    for (int i = 0; i < 5; ++i) {
        printf("  Parent working... %d\n", i);
        sleep(1);
    }

    // 4. 父进程等待子进程结束
    int status;
    pid_t wpid = waitpid(ctid, &status, 0); // 等待特定的子进程
    if (wpid == -1) {
        perror("waitpid failed");
        free(stack);
        exit(EXIT_FAILURE);
    }

    if (WIFEXITED(status)) {
        int exit_code = WEXITSTATUS(status);
        printf("Parent: Child (TID %d) exited with status/code: %d\n", ctid, exit_code);
    } else {
        printf("Parent: Child (TID %d) did not exit normally.\n", ctid);
    }

    // 5. 清理资源
    free(stack);
    printf("Parent process (PID: %d) finished.\n", getpid());

    return 0;
}

代码解释:

定义了栈大小 STACK_SIZE 为 1MB。
定义了子进程的入口函数 child_function。这个函数接受一个 void * 参数，打印信息，做一些工作，然后返回 42。
在 main 函数中：
- 使用 malloc 分配栈空间。
- 计算栈顶指针 stack_top。因为栈向下增长，clone 需要栈顶地址。
- 调用 clone(child_function, stack_top, SIGCHLD, "Hello from parent to child!")。
  - child_function: 子进程入口。
  - stack_top: 子进程的栈顶。
  - SIGCHLD: 标志，表示子进程结束后发送信号。
  - "Hello...": 传递给 child_function 的参数。
- clone 在父进程中返回子进程的 TID。
- 父进程执行自己的任务。
- 调用 waitpid(ctid, ...) 等待子进程结束。
- 检查子进程的退出状态。WEXITSTATUS(status) 获取子进程 child_function 的返回值（42）。
- 释放栈内存。

示例 2：使用 `clone` 创建共享内存的执行流 (类似线程)

这个例子演示了如何使用 clone 创建一个与父进程共享内存空间的执行流，模拟线程的部分行为。

// clone_thread_like.c
#define _GNU_SOURCE
#include <sched.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <signal.h>
#include <sys/wait.h>
#include <string.h>

#define STACK_SIZE (1024 * 1024)

// 全局变量，用于演示内存共享
volatile int shared_counter = 0;

// 子执行流函数
int thread_like_function(void *arg) {
    char *name = (char *)arg;
    printf("Thread-like process '%s' (TID: %d) started.\n", name, getpid());

    for (int i = 0; i < 100000; ++i) {
        // 修改共享变量
        shared_counter++;
    }
    printf("Thread-like process '%s' finished. Shared counter: %d\n", name, shared_counter);
    return 0;
}

int main() {
    char *stack1, *stack2;
    char *stack_top1, *stack_top2;
    pid_t tid1, tid2;

    stack1 = malloc(STACK_SIZE);
    stack2 = malloc(STACK_SIZE);
    if (!stack1 || !stack2) {
        perror("malloc stacks failed");
        free(stack1);
        free(stack2);
        exit(EXIT_FAILURE);
    }
    stack_top1 = stack1 + STACK_SIZE;
    stack_top2 = stack2 + STACK_SIZE;

    printf("Main process (PID: %d) creating two thread-like processes.\n", getpid());
    printf("Initial shared counter: %d\n", shared_counter);

    // 创建第一个"线程"
    // CLONE_VM: 共享虚拟内存 (包括全局变量 shared_counter)
    tid1 = clone(thread_like_function, stack_top1, CLONE_VM | SIGCHLD, "Thread-1");
    if (tid1 == -1) {
        perror("clone thread 1 failed");
        free(stack1);
        free(stack2);
        exit(EXIT_FAILURE);
    }

    // 创建第二个"线程"
    tid2 = clone(thread_like_function, stack_top2, CLONE_VM | SIGCHLD, "Thread-2");
    if (tid2 == -1) {
        perror("clone thread 2 failed");
        free(stack1);
        free(stack2);
        exit(EXIT_FAILURE);
    }

    printf("Main process created TID1: %d, TID2: %d\n", tid1, tid2);

    // 等待两个"线程"结束
    // 注意：由于共享内存，最后的 shared_counter 值是不确定的（竞态条件）
    waitpid(tid1, NULL, 0);
    waitpid(tid2, NULL, 0);

    printf("Main process finished. Final shared counter: %d (may be < 200000 due to race condition)\n", shared_counter);

    free(stack1);
    free(stack2);
    return 0;
}

代码解释:

定义了一个 volatile int shared_counter 全局变量。volatile 告诉编译器不要优化对它的访问，因为在多执行流环境下它的值可能随时改变。
thread_like_function 是两个”线程”将执行的函数。它们都对 shared_counter 进行大量递增操作。
在 main 函数中：
- 分配两个独立的栈空间。
- 调用两次 clone 创建两个执行流。
- 关键: flags 参数是 CLONE_VM | SIGCHLD。
  - CLONE_VM: 这使得子执行流与父进程共享虚拟内存地址空间。因此，它们访问的 shared_counter 是同一个变量。
- 父进程等待两个子执行流结束。
重要: 由于两个执行流共享内存并同时修改 shared_counter，而 shared_counter++ 不是原子操作，这会导致竞态条件（Race Condition）。最终的 shared_counter 值很可能小于 200000。这展示了在共享内存编程中进行同步（如使用互斥锁）的重要性。

示例 3：与 `pthread_create` 的对比

这个例子通过代码片段对比 clone 和更高级的 pthread_create。

// 使用 clone (底层，复杂)
int thread_func(void *arg) {
    // ... thread work ...
    return 0;
}
void* wrapper_func(void *arg) {
    return (void*)(long)thread_func(arg);
}
// In main:
char *stack = malloc(STACK_SIZE);
char *stack_top = stack + STACK_SIZE;
clone(thread_func, stack_top, CLONE_VM | CLONE_FILES | CLONE_SIGHAND | CLONE_THREAD, arg);

// 使用 pthread_create (高层，简单)
void* pthread_func(void *arg) {
    // ... thread work ...
    return NULL;
}
// In main:
pthread_t thread;
pthread_create(&thread, NULL, pthread_func, arg);
pthread_join(thread, NULL);

解释:

clone 需要手动管理栈、设置多个标志位、处理返回值等，非常底层。
pthread_create 自动处理了栈分配、设置了正确的共享标志、提供了简单的 pthread_t 标识符和 pthread_join 等待机制，更易于使用。

重要提示与注意事项:

底层且复杂: clone 是一个非常底层的系统调用，直接使用它非常复杂且容易出错。除非有特殊需求（如实现自己的线程库、容器技术），否则应优先使用 fork/vfork 或 pthread_create。
栈管理: 调用者必须自己分配和释放子进程/线程的栈空间。忘记释放会导致内存泄漏。
标志位: flags 参数是 clone 的核心。理解各种 CLONE_* 标志的含义及其组合效果至关重要。
CLONE_THREAD: 如果使用 CLONE_THREAD 创建线程，该线程将成为调用进程的线程组的一部分。线程组中的所有线程具有相同的 PID，但有不同的 TID。对线程组中的任何一个线程调用 exit 会杀死整个线程组。等待线程需要使用 pthread_join 类似的机制，而不是 wait/waitpid。
_exit vs exit: 子进程（线程）在执行函数返回后，应调用 _exit() 而非 exit()。exit() 会刷新 stdio 缓冲区等，可能对共享内存的父进程产生意外影响。
信号: 理解 SIGCHLD 标志以及如何正确等待子进程非常重要。
可移植性: clone 是 Linux 特有的系统调用，在其他 Unix 系统上不可用。

总结:

clone 是 Linux 提供的一个功能强大但使用复杂的系统调用，用于创建新的执行流（进程或线程）。它通过精细的标志位控制资源的共享，是实现线程库和高级进程管理功能（如容器）的基础。虽然直接使用它需要深入了解系统底层知识，但理解其工作原理对于掌握 Linux 进程和线程模型非常有帮助。

发表在 linux文章 | 留下评论

close系统调用及示例

发表于2025-08-06由麦芽爸

继续学习 Linux 系统编程中的基础函数。这次我们介绍 close 函数，它是与 open 相对应的，用于关闭不再需要的文件描述符。

1. 函数介绍

close 是一个 Linux 系统调用，其主要功能是关闭一个由 open、pipe、socket 等系统调用打开的文件描述符 (file descriptor)。关闭文件描述符会释放与之关联的内核资源（如文件表项），并使其可以被进程重新使用（例如，后续的 open 调用可能会返回这个刚刚被关闭的文件描述符值）。

你可以把它想象成离开房间时关上门，并交还钥匙（文件描述符），这样其他人（或你自己稍后）才能再使用这把钥匙（文件描述符号）进入别的房间（打开别的文件）。

2. 函数原型

#include <unistd.h>

int close(int fd);

3. 功能

释放资源: 释放与文件描述符 fd 相关的内核资源。
刷新缓冲: 对于某些类型的文件（如普通文件），内核可能会缓存写操作。调用 close 通常会触发将这些缓存的数据写入到实际的存储介质中（虽然不保证 100% 刷新，fsync 可以强制刷新）。
关闭连接: 对于套接字 (socket) 或管道 (pipe)，close 会关闭连接的一端。
回收描述符: 使文件描述符 fd 在当前进程中变为无效，该值可以被后续的文件操作（如 open、dup）重新使用。

4. 参数

int fd: 这是需要关闭的文件描述符。它应该是之前成功调用 open、creat、pipe、socket、dup 等函数返回的有效文件描述符。

5. 返回值

成功时: 返回 0。
失败时: 返回 -1，并设置全局变量 errno 来指示具体的错误原因（例如 EBADF 表示 fd 不是一个有效的、已打开的文件描述符）。

重要提示: 必须检查 close 的返回值！ 虽然很多人忽略，但 close 是可能失败的。如果 close 失败，可能意味着数据没有被正确写入（例如磁盘空间满、设备故障等）。忽略 close 的错误可能会导致数据丢失或不一致。

6. 相似函数，或关联函数

open: 与 close 相对应，用于打开文件并获取文件描述符。
read, write: 在文件描述符被 close 之后，不能再对它使用 read 或 write。
dup, dup2, fcntl(F_DUPFD): 这些函数可以复制文件描述符。需要注意的是，close 只关闭指定的那个文件描述符副本。只有当一个打开文件的最后一个引用（即最后一个指向该打开文件表项的文件描述符）被关闭时，相关的资源（如文件偏移量、状态标志）才会被真正释放，对于文件来说，数据也才会被刷新。
fsync: 在 close 之前显式调用 fsync(fd) 可以确保文件的所有修改都被写入到存储设备，提供更强的数据持久性保证。

7. 示例代码

示例 1：基本的打开、读取、关闭操作

这个例子结合了 open、read 和 close，展示了它们的标准使用流程。

#include <unistd.h>  // read, write, close
#include <fcntl.h>   // open, O_RDONLY
#include <stdio.h>   // perror, printf
#include <stdlib.h>  // exit
#include <errno.h>   // errno

#define BUFFER_SIZE 512

int main() {
    int fd;                 // 文件描述符
    char buffer[BUFFER_SIZE]; // 读取缓冲区
    ssize_t bytes_read;     // 实际读取的字节数
    int close_result;       // close 的返回值

    // 1. 打开文件
    fd = open("sample.txt", O_RDONLY);
    if (fd == -1) {
        perror("Error opening file 'sample.txt'");
        exit(EXIT_FAILURE);
    }
    printf("File 'sample.txt' opened successfully with fd: %d\n", fd);

    // 2. 读取文件内容
    printf("Reading file content:\n");
    while ((bytes_read = read(fd, buffer, BUFFER_SIZE)) > 0) {
        // 将读取的内容写到标准输出
        if (write(STDOUT_FILENO, buffer, bytes_read) != bytes_read) {
            perror("Error writing to stdout");
            // 即使写 stdout 出错，也要尝试关闭原始文件
            close(fd); // 忽略此处 close 的返回值，因为主要错误是 write
            exit(EXIT_FAILURE);
        }
    }

    if (bytes_read == -1) {
        perror("Error reading file");
        // 读取失败，关闭文件
        close(fd); // 忽略此处 close 的返回值，因为主要错误是 read
        exit(EXIT_FAILURE);
    }
    // bytes_read == 0, 表示到达文件末尾，正常流程

    // 3. 关闭文件 - 这是关键步骤
    close_result = close(fd);
    if (close_result == -1) {
        // close 失败！这是一个严重错误，需要处理
        perror("CRITICAL ERROR: Failed to close file 'sample.txt'");
        exit(EXIT_FAILURE); // 或者根据应用逻辑决定如何处理
    }
    printf("File 'sample.txt' closed successfully.\n");

    return 0;
}

代码解释:

使用 open 打开文件。
使用 read 和 write 循环读取并打印文件内容。
关键: 在所有可能的退出路径（正常结束、读/写错误）上都调用了 close(fd)。
最重要: 检查了 close(fd) 的返回值。如果返回 -1，则打印严重错误信息并退出。这确保了我们能发现 close 本身可能遇到的问题（如 I/O 错误导致缓冲区刷新失败）。

示例 2：处理多个文件描述符和错误检查

这个例子展示了打开多个文件，并在程序结束前逐一正确关闭它们，同时进行错误检查。

#include <unistd.h>  // close
#include <fcntl.h>   // open
#include <stdio.h>   // perror, printf
#include <stdlib.h>  // exit
#include <string.h>  // strerror

int main() {
    int fd1 = -1, fd2 = -1, fd3 = -1; // 初始化为无效值
    int result;

    // 打开几个不同的文件
    fd1 = open("file1.txt", O_RDONLY);
    if (fd1 == -1) {
        perror("Failed to open 'file1.txt'");
        // fd2, fd3 还未打开，无需关闭
        exit(EXIT_FAILURE);
    }

    fd2 = open("file2.txt", O_WRONLY | O_CREAT | O_TRUNC, 0644);
    if (fd2 == -1) {
        perror("Failed to open/create 'file2.txt'");
        // 关闭之前成功打开的 fd1
        if (close(fd1) == -1) {
            fprintf(stderr, "Warning: Also failed to close 'file1.txt': %s\n", strerror(errno));
        }
        exit(EXIT_FAILURE);
    }

    fd3 = open("/etc/passwd", O_RDONLY); // 尝试打开一个系统文件
    if (fd3 == -1) {
        perror("Failed to open '/etc/passwd'");
        // 关闭之前成功打开的 fd1 和 fd2
        if (close(fd1) == -1) {
            fprintf(stderr, "Warning: Also failed to close 'file1.txt': %s\n", strerror(errno));
        }
        if (close(fd2) == -1) {
            fprintf(stderr, "Warning: Also failed to close 'file2.txt': %s\n", strerror(errno));
        }
        exit(EXIT_FAILURE);
    }

    printf("All files opened successfully: fd1=%d, fd2=%d, fd3=%d\n", fd1, fd2, fd3);

    // ... 这里可以进行文件读写操作 ...

    // 程序结束前，关闭所有打开的文件描述符
    // 注意：关闭顺序通常不重要，但保持一致性是好习惯
    // 关闭时检查每个的返回值

    if (fd1 != -1) {
        result = close(fd1);
        if (result == -1) {
            // 主要错误：记录日志或处理
            fprintf(stderr, "ERROR: Failed to close 'file1.txt' (fd=%d): %s\n", fd1, strerror(errno));
            // 根据应用策略决定是否 exit(EXIT_FAILURE)
        } else {
            printf("Successfully closed 'file1.txt' (fd=%d)\n", fd1);
        }
        fd1 = -1; // 关闭后设为无效值，防止重复关闭
    }

    if (fd2 != -1) {
        result = close(fd2);
        if (result == -1) {
            fprintf(stderr, "ERROR: Failed to close 'file2.txt' (fd=%d): %s\n", fd2, strerror(errno));
        } else {
            printf("Successfully closed 'file2.txt' (fd=%d)\n", fd2);
        }
        fd2 = -1;
    }

    if (fd3 != -1) {
        result = close(fd3);
        if (result == -1) {
            fprintf(stderr, "ERROR: Failed to close '/etc/passwd' (fd=%d): %s\n", fd3, strerror(errno));
        } else {
            printf("Successfully closed '/etc/passwd' (fd=%d)\n", fd3);
        }
        fd3 = -1;
    }

    printf("Program finished closing all files.\n");
    return 0;
}

代码解释:

初始化文件描述符变量为 -1（无效值）。
依次尝试打开多个文件。
如果中间某个 open 失败，在退出前会关闭之前成功打开的文件描述符。
在程序正常结束前，有一个清理阶段，遍历所有可能有效的文件描述符（通过检查是否不等于 -1）并调用 close。
关键: 对每一次 close 调用都检查了返回值。如果失败，会打印错误信息。注意这里使用了 strerror(errno) 来获取 errno 对应的可读错误信息。
关闭后，将文件描述符变量设置回 -1，这是一种防止重复关闭的好习惯（虽然重复关闭同一个 已经关闭的 文件描述符通常是安全的，会返回错误 EBADF，但保持清晰的状态是好的实践）。

总结来说，close 是资源管理的关键环节。养成始终检查 close 返回值的习惯对于编写健壮的 Linux 程序至关重要。

发表在 linux文章 | 留下评论

connect系统调用及示例

发表于2025-08-06由麦芽爸

我们继续学习 Linux 系统编程中的重要函数。这次我们介绍 connect 函数，它是 TCP 客户端用来向服务器发起连接请求的核心系统调用。

1. 函数介绍

connect 是一个 Linux 系统调用，主要用于TCP 客户端（使用 SOCK_STREAM 套接字）来主动建立与服务器的连接。它也可以用于UDP 客户端（使用 SOCK_DGRAM 套接字）来设置默认的目标地址。

你可以把 connect 想象成拨打电话：

你先有了一个电话听筒（通过 socket 创建了套接字）。
你知道你要打给谁（知道服务器的 IP 地址和端口号）。
你按下拨打键（调用 connect）。
电话那头的服务器响铃，接听后，你们之间的通话线路就建立了。

对于 TCP 来说，connect 会触发 TCP 的**三次握手 **(Three-way Handshake) 过程，这是 TCP 协议用来建立可靠连接的标准步骤。

2. 函数原型

#include <sys/socket.h> // 必需

int connect(int sockfd, const struct sockaddr *addr, socklen_t addrlen);

3. 功能

**建立连接 **(TCP) 对于 TCP 套接字 (SOCK_STREAM)，connect 发起一个连接请求到由 addr 参数指定的服务器地址。它会执行 TCP 三次握手，直到连接成功建立或失败。
**设置默认目标 **(UDP) 对于 UDP 套接字 (SOCK_DGRAM)，connect 不会发送任何数据包或执行握手。它只是在内核中为该套接字记录下目标地址。之后对该套接字的 write/send 调用将默认发送到这个地址，read/recv 只会接收来自这个地址的数据。这简化了 UDP 客户端的编程，使其行为更像 TCP。

4. 参数

int sockfd: 这是之前通过 socket() 系统调用成功创建的套接字文件描述符。
const struct sockaddr *addr: 这是一个指向套接字地址结构的指针，该结构包含了要连接的服务器的地址信息（IP 地址和端口号）。
- 对于 IPv4，通常使用 struct sockaddr_in。
- 对于 IPv6，通常使用 struct sockaddr_in6。
- 在调用时，通常会将具体的地址结构（如 sockaddr_in）强制类型转换为 (struct sockaddr *) 传入。
socklen_t addrlen: 这是 addr 指向的地址结构的大小（以字节为单位）。
- 对于 struct sockaddr_in，这个值通常是 sizeof(struct sockaddr_in)。
- 对于 struct sockaddr_in6，这个值通常是 sizeof(struct sockaddr_in6)。

5. 返回值

**成功时 **(TCP) 对于 TCP 套接字，连接成功建立后，返回 0。此时，套接字 sockfd 已准备好进行数据传输（read/write）。
**成功时 **(UDP) 对于 UDP 套接字，总是立即返回 0，因为它只是设置了默认地址，并不真正“连接”。
失败时: 返回 -1，并设置全局变量 errno 来指示具体的错误原因（例如 ECONNREFUSED 远程主机拒绝连接，ETIMEDOUT 连接超时，EHOSTUNREACH 主机不可达，EADDRINUSE 本地地址已被使用，EINVAL 套接字状态无效等）。

阻塞与非阻塞:

阻塞套接字（默认）：调用 connect 会阻塞（挂起）当前进程，直到连接成功建立或发生错误。对于 TCP，这意味着等待三次握手完成。
非阻塞套接字（通过 SOCK_NONBLOCK 或 fcntl 设置）：调用 connect 会立即返回。
- 如果连接不能立即建立，connect 返回 -1，并将 errno 设置为 EINPROGRESS。
- 程序需要使用 select、poll 或 epoll 来检查套接字何时变为可写（表示连接完成），然后使用 getsockopt 检查 SO_ERROR 选项来确定连接最终是成功还是失败。

6. 相似函数，或关联函数

socket: 用于创建套接字，是 connect 的前置步骤。
bind: （服务器端）将套接字绑定到本地地址。客户端通常不需要显式调用 bind。
listen / accept: （服务器端）用于监听和接受客户端的连接请求。
getpeername: 连接建立后，用于获取对方（peer）的地址信息。
getsockname: 用于获取本地套接字的地址信息。
close: 关闭套接字，对于 TCP 连接，这会发起断开连接的四次挥手过程。

7. 示例代码

示例 1：基本的 TCP 客户端 `connect`

这个例子演示了一个典型的 TCP 客户端如何使用 connect 连接到服务器。

// tcp_client.c
#include <sys/socket.h>  // socket, connect
#include <netinet/in.h>  // sockaddr_in
#include <arpa/inet.h>   // inet_pton
#include <unistd.h>      // close, write, read
#include <stdio.h>       // perror, printf, fprintf
#include <stdlib.h>      // exit
#include <string.h>      // strlen, memset

#define PORT 8080
#define SERVER_IP "127.0.0.1" // 可替换为实际服务器 IP

int main() {
    int sock = 0;
    struct sockaddr_in serv_addr;
    char *hello = "Hello from TCP client";
    char buffer[1024] = {0};
    int valread;

    // 1. 创建 TCP 套接字
    if ((sock = socket(AF_INET, SOCK_STREAM, 0)) < 0) {
        perror("socket creation failed");
        exit(EXIT_FAILURE);
    }
    printf("TCP client socket created (fd: %d)\n", sock);

    // 2. 配置服务器地址
    memset(&serv_addr, 0, sizeof(serv_addr));
    serv_addr.sin_family = AF_INET;
    serv_addr.sin_port = htons(PORT);

    // 将 IPv4 地址从文本转换为二进制
    if (inet_pton(AF_INET, SERVER_IP, &serv_addr.sin_addr) <= 0) {
        fprintf(stderr, "Invalid address/ Address not supported: %s\n", SERVER_IP);
        close(sock);
        exit(EXIT_FAILURE);
    }

    // 3. 发起连接 (阻塞调用)
    printf("Connecting to %s:%d...\n", SERVER_IP, PORT);
    if (connect(sock, (struct sockaddr *)&serv_addr, sizeof(serv_addr)) < 0) {
        perror("connection failed");
        close(sock);
        exit(EXIT_FAILURE);
    }
    printf("Connected to server successfully.\n");

    // 4. 发送数据
    printf("Sending message: %s\n", hello);
    if (write(sock, hello, strlen(hello)) != (ssize_t)strlen(hello)) {
        perror("write failed");
        // 注意：write 返回 ssize_t，strlen 返回 size_t
        // 比较时最好类型一致或强制转换
    } else {
        printf("Message sent successfully.\n");
    }

    // 5. 接收响应
    printf("Waiting for server response...\n");
    valread = read(sock, buffer, sizeof(buffer) - 1);
    if (valread > 0) {
        buffer[valread] = '\0'; // 确保字符串结束
        printf("Received from server: %s\n", buffer);
    } else if (valread == 0) {
        printf("Server closed the connection.\n");
    } else {
        perror("read failed");
    }

    // 6. 关闭套接字
    close(sock);
    printf("Client socket closed.\n");

    return 0;
}

代码解释:

使用 socket(AF_INET, SOCK_STREAM, 0) 创建一个 IPv4 TCP 套接字。
初始化 struct sockaddr_in 结构体 serv_addr，填入服务器的 IP 地址和端口号。
- 使用 inet_pton(AF_INET, ...) 将点分十进制的 IP 字符串转换为网络二进制格式。
- 使用 htons(PORT) 将端口号从主机字节序转换为网络字节序。
关键步骤: 调用 connect(sock, (struct sockaddr *)&serv_addr, sizeof(serv_addr))。
- 这是一个阻塞调用。程序会在此处暂停，直到连接建立（三次握手完成）或失败。
- 如果服务器没有运行或无法访问，connect 会失败并返回 -1，同时设置 errno。
连接成功后，使用 write 发送数据到服务器。
使用 read 从服务器接收数据。
通信结束后，调用 close 关闭套接字。

示例 2：UDP 客户端使用 `connect` 简化通信

这个例子展示了如何在 UDP 客户端中使用 connect 来设置默认目标地址，从而可以使用 read/write 而不是 sendto/recvfrom。

// udp_client_with_connect.c
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#define PORT 8081
#define SERVER_IP "127.0.0.1"

int main() {
    int sock;
    struct sockaddr_in serv_addr;
    char *message = "Hello UDP server via connect!";
    char buffer[1024];
    ssize_t bytes_sent, bytes_received;

    // 1. 创建 UDP 套接字
    sock = socket(AF_INET, SOCK_DGRAM, 0);
    if (sock < 0) {
        perror("socket creation failed");
        exit(EXIT_FAILURE);
    }
    printf("UDP client socket created (fd: %d)\n", sock);

    // 2. 配置服务器地址
    memset(&serv_addr, 0, sizeof(serv_addr));
    serv_addr.sin_family = AF_INET;
    serv_addr.sin_port = htons(PORT);
    if (inet_pton(AF_INET, SERVER_IP, &serv_addr.sin_addr) <= 0) {
        fprintf(stderr, "Invalid address/ Address not supported\n");
        close(sock);
        exit(EXIT_FAILURE);
    }

    // 3. 使用 connect 设置默认目标地址 (UDP 的 connect 不发送数据包)
    printf("Connecting UDP socket to %s:%d (sets default destination)...\n", SERVER_IP, PORT);
    if (connect(sock, (const struct sockaddr *)&serv_addr, sizeof(serv_addr)) < 0) {
        perror("connect failed");
        close(sock);
        exit(EXIT_FAILURE);
    }
    printf("UDP socket 'connected' (default destination set).\n");

    // 4. 发送数据 (无需指定地址)
    // write/send 都可以，因为目标地址已通过 connect 设置
    bytes_sent = write(sock, message, strlen(message));
    if (bytes_sent < 0) {
        perror("write failed");
    } else {
        printf("Sent %zd bytes to server: %s\n", bytes_sent, message);
    }

    // 5. 接收数据 (只接收来自已连接地址的数据)
    // read/recv 都可以
    bytes_received = read(sock, buffer, sizeof(buffer) - 1);
    if (bytes_received < 0) {
        perror("read failed");
    } else if (bytes_received == 0) {
        printf("Server closed the (logical) connection.\n");
    } else {
        buffer[bytes_received] = '\0';
        printf("Received %zd bytes from server: %s\n", bytes_received, buffer);
    }

    // 6. 关闭套接字
    close(sock);
    printf("UDP client socket closed.\n");

    return 0;
}

代码解释:

创建一个 SOCK_DGRAM (UDP) 套接字。
配置服务器地址 serv_addr。
关键步骤: 调用 connect(sock, ...). 对于 UDP，这不会发送任何网络数据包。
它只是告诉内核：“对于这个套接字 sock，如果没有特别指定，以后发送的数据就发到 serv_addr，接收的数据也只接受来自 serv_addr 的。”
连接后，可以使用 write/read 或 send/recv 进行数据传输，无需再指定目标地址（不像 sendto/recvfrom 那样）。
这简化了 UDP 客户端的代码，使其用法更接近 TCP。

示例 3：非阻塞 `connect` (高级用法)

这个例子演示了如何对非阻塞套接字使用 connect，并使用 select 来等待连接完成。

// nonblocking_connect.c
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <unistd.h>
#include <fcntl.h>    // fcntl
#include <sys/select.h> // select
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>    // errno

#define PORT 8080
#define SERVER_IP "127.0.0.1"
#define TIMEOUT_SEC 5

int main() {
    int sock;
    struct sockaddr_in serv_addr;
    fd_set write_fds;
    struct timeval timeout;
    int error;
    socklen_t len = sizeof(error);

    // 1. 创建 TCP 套接字
    sock = socket(AF_INET, SOCK_STREAM, 0);
    if (sock < 0) {
        perror("socket creation failed");
        exit(EXIT_FAILURE);
    }

    // 2. 将套接字设置为非阻塞模式
    int flags = fcntl(sock, F_GETFL, 0);
    if (flags < 0) {
        perror("fcntl F_GETFL failed");
        close(sock);
        exit(EXIT_FAILURE);
    }
    if (fcntl(sock, F_SETFL, flags | O_NONBLOCK) < 0) {
        perror("fcntl F_SETFL failed");
        close(sock);
        exit(EXIT_FAILURE);
    }
    printf("Socket set to non-blocking mode.\n");

    // 3. 配置服务器地址
    memset(&serv_addr, 0, sizeof(serv_addr));
    serv_addr.sin_family = AF_INET;
    serv_addr.sin_port = htons(PORT);
    if (inet_pton(AF_INET, SERVER_IP, &serv_addr.sin_addr) <= 0) {
        fprintf(stderr, "Invalid address\n");
        close(sock);
        exit(EXIT_FAILURE);
    }

    // 4. 发起连接 (非阻塞调用)
    printf("Initiating non-blocking connect to %s:%d...\n", SERVER_IP, PORT);
    int conn_result = connect(sock, (struct sockaddr *)&serv_addr, sizeof(serv_addr));

    if (conn_result < 0) {
        if (errno != EINPROGRESS) {
            perror("connect failed with unexpected error");
            close(sock);
            exit(EXIT_FAILURE);
        }
        // 如果 errno == EINPROGRESS, 连接正在进行中
        printf("Connect in progress...\n");
    } else {
        // 立即成功 (罕见)
        printf("Connect succeeded immediately.\n");
        close(sock);
        return 0;
    }

    // 5. 使用 select 等待套接字变为可写 (连接完成或失败)
    FD_ZERO(&write_fds);
    FD_SET(sock, &write_fds);
    timeout.tv_sec = TIMEOUT_SEC;
    timeout.tv_usec = 0;

    printf("Waiting up to %d seconds for connection to complete...\n", TIMEOUT_SEC);
    int select_result = select(sock + 1, NULL, &write_fds, NULL, &timeout);

    if (select_result < 0) {
        perror("select failed");
        close(sock);
        exit(EXIT_FAILURE);
    } else if (select_result == 0) {
        printf("Connection timed out after %d seconds.\n", TIMEOUT_SEC);
        close(sock);
        exit(EXIT_FAILURE);
    } else {
        // select 返回 > 0, 表示至少有一个 fd 就绪
        // 我们只监视了 sock 的可写事件
        if (FD_ISSET(sock, &write_fds)) {
            // 套接字可写，连接过程完成（成功或失败）
            // 需要通过 getsockopt 检查 SO_ERROR 来确定最终结果
            if (getsockopt(sock, SOL_SOCKET, SO_ERROR, &error, &len) < 0) {
                perror("getsockopt failed");
                close(sock);
                exit(EXIT_FAILURE);
            }

            if (error != 0) {
                // error 变量包含了 connect 失败时的 errno 值
                errno = error;
                perror("connect failed asynchronously");
                close(sock);
                exit(EXIT_FAILURE);
            } else {
                printf("Asynchronous connect succeeded!\n");
            }
        }
    }

    // 6. 连接成功，可以进行通信了
    printf("Ready to send/receive data on the connected socket.\n");

    // ... 这里可以进行 read/write 操作 ...

    close(sock);
    printf("Socket closed.\n");
    return 0;
}

代码解释:

创建 TCP 套接字。
使用 fcntl 将套接字设置为非阻塞模式 (O_NONBLOCK)。
配置服务器地址。
调用 connect。因为套接字是非阻塞的：
- 如果连接能立即建立，connect 返回 0（罕见）。
- 如果连接不能立即建立（通常是这种情况），connect 返回 -1，并将 errno 设置为 EINPROGRESS。这表明连接正在后台进行。
关键: 使用 select 来等待连接完成。
- 监视套接字的可写 (write_fds) 事件。对于非阻塞 connect，当连接尝试完成（无论成功还是失败）时，套接字会变为可写。
- 设置一个超时时间，避免无限期等待。
select 返回后，检查是超时还是套接字就绪。
如果套接字就绪，调用 getsockopt(sock, SOL_SOCKET, SO_ERROR, ...) 来获取连接的最终状态。
- 如果 SO_ERROR 的值为 0，表示连接成功。
- 如果 SO_ERROR 的值非 0，该值就是连接失败时的错误码，将其赋给 errno 并打印错误信息。
连接成功后，套接字就可以像平常一样用于 read/write 了。

重要提示与注意事项:

TCP 三次握手: 对于 TCP 套接字，connect 的核心作用是启动并等待三次握手完成。
UDP 的特殊性: 对于 UDP，connect 不涉及网络交互，仅在内核中设置默认地址。
阻塞 vs 非阻塞: 理解阻塞和非阻塞 connect 的行为差异对于编写高性能或响应式网络程序至关重要。
错误处理: connect 失败的错误码 (errno) 提供了丰富的信息，如 ECONNREFUSED (端口未监听), ETIMEDOUT (超时), ENETUNREACH (网络不可达) 等。
客户端通常不 bind: 客户端程序通常不需要调用 bind 来绑定本地地址，操作系统会自动分配一个临时端口。
getpeername: 连接建立后，可以使用 getpeername 来确认连接的对端地址。

总结:

connect 是 TCP 客户端发起网络连接的关键函数，它对于 UDP 客户端则提供了一种简化地址管理的方法。掌握其在阻塞和非阻塞模式下的行为对于进行有效的网络编程非常重要。

发表在 linux文章 | 留下评论

copy_file_range系统调用示例

发表于2025-08-06由麦芽爸

copy_file_range系统调用示例

探索Linux系统编程精髓，学习使用copy_file_range函数实现高效文件复制技巧。立即访问，掌握关键API用法！这次我们介绍Linux 系统编程中的重要函数 copy_file_range；

1. 函数介绍

copy_file_range 是一个相对较新的 Linux 系统调用（内核版本 >= 4.5），专门用于在两个文件描述符之间高效地复制数据。

你可以把它想象成一个优化版的 “文件剪切板” 功能：

你不需要先 read 把数据从源文件拿到用户空间的缓冲区。
也不需要再 write 把数据从用户空间缓冲区放到目标文件。
而是直接告诉内核：“嘿，内核，帮我把数据从文件 A 的这里，复制到文件 B 的那里。”

内核会尽可能地在内核空间内部完成这个操作，利用各种优化手段（如copy-on-write (COW)、 reflink、缓冲区到缓冲区的直接传输等），避免了在用户空间和内核空间之间来回复制数据（即避免了用户态和内核态的上下文切换以及数据拷贝**的开销），从而极大地提高了文件复制的效率。

这在复制大文件、备份、文件系统内部移动/复制（如果文件系统支持）等场景下尤其有用。

2. 函数原型

#define _GNU_SOURCE // 必须定义以使用 copy_file_range
#include <unistd.h> // ssize_t
#include <fcntl.h>  // 定义了相关的标志 (如果需要)

ssize_t copy_file_range(int fd_in, off_t *off_in,
                        int fd_out, off_t *off_out,
                        size_t len, unsigned int flags);

3. 功能

高效复制: 在内核内部将数据从一个文件描述符 fd_in 复制到另一个文件描述符 fd_out。
指定范围: 可以指定源文件的起始偏移量 off_in、目标文件的起始偏移量 off_out 以及要复制的字节数 len。
灵活偏移: 通过 off_in 和 off_out 指针，可以控制是使用文件的当前偏移量还是指定绝对偏移量。
潜在优化: 内核可能会利用文件系统特性（如 reflink）来实现零拷贝或写时复制，使得复制操作极其快速。

4. 参数

int fd_in: 源文件的文件描述符。这个文件描述符必须是可读的。
off_t *off_in: 指向一个 off_t 类型变量的指针，该变量指定在源文件中开始复制的偏移量。
- 如果 off_in 是 NULL: 复制从源文件的当前偏移量（由 lseek(fd_in, 0, SEEK_CUR) 决定）开始。复制操作会更新源文件的当前偏移量（增加已复制的字节数）。
- 如果 off_in 非 NULL: 复制从 *off_in 指定的绝对偏移量开始。复制操作不会更新源文件的当前偏移量，但会更新 *off_in 的值（增加已复制的字节数）。
int fd_out: 目标文件的文件描述符。这个文件描述符必须是可写的。
off_t *off_out: 指向一个 off_t 类型变量的指针，该变量指定在目标文件中开始写入的偏移量。
- 如果 off_out 是 NULL: 数据写入到目标文件的当前偏移量。复制操作会更新目标文件的当前偏移量。
- 如果 off_out 非 NULL: 数据写入到 *off_out 指定的绝对偏移量。复制操作不会更新目标文件的当前偏移量，但会更新 *off_out 的值。
size_t len: 请求复制的最大字节数。
unsigned int flags: 控制复制行为的标志。在 Linux 中，目前这个参数必须设置为 0。保留供将来扩展。

5. 返回值

成功时: 返回实际复制的字节数（一个非负值）。这个数可能小于请求的 len（例如，在读取时遇到文件末尾）。
失败时: 返回 -1，并设置全局变量 errno 来指示具体的错误原因（例如 EBADF 文件描述符无效或权限不足，EINVAL 参数无效，EXDEV fd_in 和 fd_out 不在同一个文件系统挂载点上且文件系统不支持跨挂载点复制，ENOMEM 内存不足等）。

6. 相似函数，或关联函数

sendfile: 用于在文件描述符之间（通常是文件到套接字）高效传输数据，是 copy_file_range 的前身和灵感来源之一。sendfile 通常不支持两个普通文件之间的复制（在旧内核上）。
splice: 用于在两个可 pipe 的文件描述符之间移动数据，也是一种零拷贝技术。
传统的 read/write 循环: 最基础的文件复制方法，效率较低，因为涉及多次用户态/内核态切换和数据拷贝。
mmap + memcpy: 另一种零拷贝思路，但使用起来更复杂，且不一定比 copy_file_range 更快。

7. 示例代码

示例 1：基本使用 `copy_file_range` 复制文件

这个例子演示了如何使用 copy_file_range 将一个文件的内容复制到另一个文件。

// copy_file_range_basic.c
#define _GNU_SOURCE
#include <fcntl.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <sys/stat.h>

#define BUFFER_SIZE 1024

int main(int argc, char *argv[]) {
    if (argc != 3) {
        fprintf(stderr, "Usage: %s <source_file> <destination_file>\n", argv[0]);
        exit(EXIT_FAILURE);
    }

    const char *src_filename = argv[1];
    const char *dst_filename = argv[2];
    int src_fd, dst_fd;
    struct stat src_stat;
    off_t offset_in, offset_out;
    ssize_t bytes_copied, total_bytes_copied = 0;
    size_t remaining;

    // 1. 打开源文件 (只读)
    src_fd = open(src_filename, O_RDONLY);
    if (src_fd == -1) {
        perror("Error opening source file");
        exit(EXIT_FAILURE);
    }

    // 2. 获取源文件大小
    if (fstat(src_fd, &src_stat) == -1) {
        perror("Error getting source file stats");
        close(src_fd);
        exit(EXIT_FAILURE);
    }

    // 3. 创建/打开目标文件 (写入、创建、截断)
    dst_fd = open(dst_filename, O_WRONLY | O_CREAT | O_TRUNC, 0644);
    if (dst_fd == -1) {
        perror("Error opening/creating destination file");
        close(src_fd);
        exit(EXIT_FAILURE);
    }

    printf("Copying '%s' to '%s' using copy_file_range()...\n", src_filename, dst_filename);
    printf("Source file size: %ld bytes\n", (long)src_stat.st_size);

    // 4. 使用 copy_file_range 进行复制
    // 初始化偏移量为 0
    offset_in = 0;
    offset_out = 0;
    remaining = src_stat.st_size;

    while (remaining > 0) {
        // 尝试复制剩余的所有字节，或者一个大块
        // copy_file_range 可能不会一次复制完所有请求的字节
        size_t to_copy = (remaining > 0x7ffff000) ? 0x7ffff000 : remaining; // 限制单次调用大小

        bytes_copied = copy_file_range(src_fd, &offset_in, dst_fd, &offset_out, to_copy, 0);

        if (bytes_copied == -1) {
            perror("Error in copy_file_range");
            // 尝试清理
            close(src_fd);
            close(dst_fd);
            exit(EXIT_FAILURE);
        }

        if (bytes_copied == 0) {
            // 可能已经到达源文件末尾
            fprintf(stderr, "Warning: copy_file_range returned 0 before copying all data.\n");
            break;
        }

        total_bytes_copied += bytes_copied;
        remaining -= bytes_copied;
        printf("  Copied %zd bytes (total: %zd)\n", bytes_copied, total_bytes_copied);
    }

    printf("Copy completed. Total bytes copied: %zd\n", total_bytes_copied);

    // 5. 关闭文件描述符
    if (close(src_fd) == -1) {
        perror("Error closing source file");
    }
    if (close(dst_fd) == -1) {
        perror("Error closing destination file");
    }

    return 0;
}

如何测试:

# 创建一个大一点的测试文件
dd if=/dev/urandom of=large_source_file.txt bs=1M count=10 # 创建 10MB 随机数据文件
# 或者简单点
echo "This is the content of the source file." > small_source_file.txt

# 编译并运行
gcc -o copy_file_range_basic copy_file_range_basic.c
./copy_file_range_basic small_source_file.txt copied_file.txt

# 检查结果
cat copied_file.txt
ls -l small_source_file.txt copied_file.txt

代码解释:

检查命令行参数。
以只读模式打开源文件 src_fd。
使用 fstat 获取源文件的大小 src_stat.st_size。
以写入、创建、截断模式打开（或创建）目标文件 dst_fd。
关键步骤: 进入 while 循环进行复制。
- 初始化 offset_in 和 offset_out 为 0。
- remaining 变量跟踪还剩多少字节需要复制。
- 在循环中，调用 copy_file_range(src_fd, &offset_in, dst_fd, &offset_out, to_copy, 0)。
  - src_fd, dst_fd: 源和目标文件描述符。
  - &offset_in, &offset_out: 传递偏移量的指针。这使得 copy_file_range 在复制后自动更新这两个变量，指向下一次复制的起始位置。
  - to_copy: 本次尝试复制的字节数（做了大小限制）。
  - 0: flags 参数，必须为 0。
- 检查返回值 bytes_copied。
- 如果成功（> 0），则更新 total_bytes_copied 和 remaining。
- 如果返回 0，可能表示源文件已到末尾。
- 如果返回 -1，则处理错误。
循环直到 remaining 为 0 或出错。
打印总复制字节数。
关闭文件描述符。

示例 2：对比 `copy_file_range` 与传统 `read`/`write` 循环

这个例子通过复制同一个大文件，对比 copy_file_range 和传统的 read/write 循环在性能上的差异。

// copy_file_range_vs_read_write.c
#define _GNU_SOURCE
#include <fcntl.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <sys/stat.h>
#include <time.h>

#define BUFFER_SIZE (1024 * 1024) // 1MB buffer

// 使用 read/write 循环复制文件
ssize_t copy_with_read_write(int src_fd, int dst_fd) {
    char *buffer = malloc(BUFFER_SIZE);
    if (!buffer) {
        perror("malloc buffer");
        return -1;
    }

    ssize_t total = 0;
    ssize_t nread, nwritten;

    while ((nread = read(src_fd, buffer, BUFFER_SIZE)) > 0) {
        char *buf_ptr = buffer;
        ssize_t nleft = nread;

        while (nleft > 0) {
            nwritten = write(dst_fd, buf_ptr, nleft);
            if (nwritten <= 0) {
                if (nwritten == -1 && errno == EINTR) {
                    continue; // Interrupted, retry
                }
                perror("write");
                free(buffer);
                return -1;
            }
            nleft -= nwritten;
            buf_ptr += nwritten;
        }
        total += nread;
    }

    if (nread == -1) {
        perror("read");
        free(buffer);
        return -1;
    }

    free(buffer);
    return total;
}

// 使用 copy_file_range 复制文件
ssize_t copy_with_copy_file_range(int src_fd, int dst_fd, size_t file_size) {
    off_t offset_in = 0;
    off_t offset_out = 0;
    size_t remaining = file_size;
    ssize_t bytes_copied, total = 0;

    while (remaining > 0) {
        size_t to_copy = (remaining > 0x7ffff000) ? 0x7ffff000 : remaining;
        bytes_copied = copy_file_range(src_fd, &offset_in, dst_fd, &offset_out, to_copy, 0);
        if (bytes_copied == -1) {
            perror("copy_file_range");
            return -1;
        }
        if (bytes_copied == 0) {
            break;
        }
        total += bytes_copied;
        remaining -= bytes_copied;
    }
    return total;
}

int main(int argc, char *argv[]) {
    if (argc != 2) {
        fprintf(stderr, "Usage: %s <source_file>\n", argv[0]);
        exit(EXIT_FAILURE);
    }

    const char *src_filename = argv[1];
    int src_fd;
    struct stat src_stat;
    clock_t start, end;
    double cpu_time_used;

    // 打开源文件
    src_fd = open(src_filename, O_RDONLY);
    if (src_fd == -1) {
        perror("open source file");
        exit(EXIT_FAILURE);
    }

    if (fstat(src_fd, &src_stat) == -1) {
        perror("fstat source file");
        close(src_fd);
        exit(EXIT_FAILURE);
    }

    printf("Source file: %s\n", src_filename);
    printf("File size: %ld bytes (%.2f MB)\n", (long)src_stat.st_size, (double)src_stat.st_size / (1024*1024));


    // --- 测试 1: copy_file_range ---
    printf("\n--- Testing copy_file_range ---\n");
    char dst_filename1[] = "copy_file_range_dst.tmp";
    int dst_fd1 = open(dst_filename1, O_WRONLY | O_CREAT | O_TRUNC, 0644);
    if (dst_fd1 == -1) {
        perror("open destination file 1");
        close(src_fd);
        exit(EXIT_FAILURE);
    }

    // 重置源文件偏移量
    if (lseek(src_fd, 0, SEEK_SET) == -1) {
        perror("lseek src_fd");
        close(src_fd);
        close(dst_fd1);
        exit(EXIT_FAILURE);
    }

    start = clock();
    ssize_t copied1 = copy_with_copy_file_range(src_fd, dst_fd1, src_stat.st_size);
    end = clock();

    if (copied1 == -1) {
        fprintf(stderr, "copy_file_range failed.\n");
    } else {
        cpu_time_used = ((double) (end - start)) / CLOCKS_PER_SEC;
        printf("  Bytes copied: %zd\n", copied1);
        printf("  Time taken: %f seconds\n", cpu_time_used);
    }

    close(dst_fd1);


    // --- 测试 2: read/write loop ---
    printf("\n--- Testing read/write loop ---\n");
    char dst_filename2[] = "read_write_dst.tmp";
    int dst_fd2 = open(dst_filename2, O_WRONLY | O_CREAT | O_TRUNC, 0644);
    if (dst_fd2 == -1) {
        perror("open destination file 2");
        close(src_fd);
        // Cleanup
        unlink(dst_filename1);
        exit(EXIT_FAILURE);
    }

    // 重置源文件偏移量
    if (lseek(src_fd, 0, SEEK_SET) == -1) {
        perror("lseek src_fd");
        close(src_fd);
        close(dst_fd2);
        unlink(dst_filename1);
        exit(EXIT_FAILURE);
    }

    start = clock();
    ssize_t copied2 = copy_with_read_write(src_fd, dst_fd2);
    end = clock();

    if (copied2 == -1) {
        fprintf(stderr, "read/write loop failed.\n");
    } else {
        cpu_time_used = ((double) (end - start)) / CLOCKS_PER_SEC;
        printf("  Bytes copied: %zd\n", copied2);
        printf("  Time taken: %f seconds\n", cpu_time_used);
    }

    close(dst_fd2);
    close(src_fd);

    // --- 清理 ---
    unlink(dst_filename1);
    unlink(dst_filename2);

    printf("\nPerformance comparison completed.\n");
    if (copied1 != -1 && copied2 != -1) {
        printf("copy_file_range is expected to be faster, especially for large files on same filesystem.\n");
    }
    return 0;
}

如何测试:

# 创建一个较大的测试文件
dd if=/dev/zero of=test_large_file.txt bs=1M count=100 # 100MB 文件

# 编译并运行
gcc -o copy_file_range_vs_read_write copy_file_range_vs_read_write.c
./copy_file_range_vs_read_write test_large_file.txt

代码解释:

定义了两个函数：copy_with_read_write 和 copy_with_copy_file_range，分别实现两种复制方法。
copy_with_read_write:
- 分配一个 1MB 的缓冲区。
- 使用 while 循环 read 数据到缓冲区。
- 内层 while 循环确保 write 将整个缓冲区的内容都写入目标文件（处理 write 可能部分写入的情况）。
- 累计复制的总字节数。
copy_with_copy_file_range:
- 使用 off_t 变量 offset_in 和 offset_out 来跟踪源和目标的偏移量。
- 使用 while 循环调用 copy_file_range，直到复制完所有数据。
main 函数：
- 获取源文件大小。
- 依次测试两种方法。
- 使用 clock() 来测量 CPU 时间（注意：clock 测量的是 CPU 时间，不是墙上时间，但对于比较相对性能还是有用的）。
- 打印结果并清理临时文件。

重要提示与注意事项:

内核版本: 需要 Linux 内核 4.5 或更高版本。
glibc 版本: 需要 glibc 2.27 或更高版本才能直接使用 copy_file_range 函数。旧版本可能需要使用 syscall。
性能优势: copy_file_range 的主要优势在于其潜在的内核内部优化。如果源文件和目标文件在同一个支持 reflink 的文件系统（如 Btrfs, XFS, OCFS2）上，copy_file_range 可能会瞬间创建一个写时复制（COW）的副本，速度极快。即使不支持 reflink，它也通常比 read/write 循环更高效，因为它减少了用户态和内核态之间的数据拷贝。
flags 参数: 目前必须为 0。未来可能会添加新标志。
跨文件系统: copy_file_range 可能不支持在不同挂载点的文件系统之间复制（返回 EXDEV 错误），尽管某些组合可能支持。
偏移量指针: 理解 off_in 和 off_out 指针的行为（NULL vs 非 NULL）非常重要。使用指针允许在不修改文件自身偏移量的情况下进行复制，非常适合多线程环境或需要精确控制偏移的场景。
返回值: 像许多 I/O 函数一样，copy_file_range 可能不会一次完成所有请求的字节复制，需要循环处理。
错误处理: 始终检查返回值和 errno。EBADF, EINVAL, EXDEV, ENOMEM 是可能遇到的错误。

总结:

copy_file_range 是一个强大且高效的系统调用，用于在文件描述符之间复制数据。它通过将复制操作完全下放到内核来避免用户空间的开销，并可能利用底层文件系统的高级特性（如 reflink）来实现极致的性能。对于需要在 Linux 系统上进行高性能文件复制的应用程序来说，copy_file_range 是一个值得优先考虑的选择。

copy_file_range 系统调用示例, copy_file_range 函数使用方法, linux copy_file_range 详解, copy_file_range 系统编程教程, 如何使用 copy_file_range 函数, copy_file_range 在 Linux 中的应用, Linux 系统调用 copy_file_range, copy_file_range 示例代码, Linux 内核 copy_file_range 说明, copy_file_range 实战案例

copy_file_range系统调用示例

sync_file_range系统调用及示例

发表在 linux文章 | 留下评论

chdir系统调用及示例

发表于2025-08-06由麦芽爸

chdir – 改变当前工作目录

函数介绍

chdir系统调用用于改变进程的当前工作目录。成功调用后，进程的所有相对路径操作都基于新的工作目录进行。

函数原型

#include <unistd.h>

int chdir(const char *path);

功能

改变进程当前工作目录到指定路径。

参数

const char *path: 目标目录的路径名（可以是相对路径或绝对路径）

返回值

成功时返回0
失败时返回-1，并设置errno：
- EACCES: 权限不足
- EIO: I/O错误
- ELOOP: 符号链接循环
- ENAMETOOLONG: 路径名过长
- ENOENT: 目录不存在
- ENOTDIR: 路径不是目录
- EROFS: 目录在只读文件系统上

相似函数

fchdir(): 通过文件描述符改变当前工作目录
getcwd(): 获取当前工作目录

示例代码

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <errno.h>
#include <string.h>
#include <sys/stat.h>
#include <limits.h>

int main() {
    char buffer[PATH_MAX];
    char original_dir[PATH_MAX];
    
    printf("=== Chdir函数示例 ===\n");
    
    // 保存原始目录
    if (getcwd(original_dir, sizeof(original_dir)) == NULL) {
        perror("获取原始目录失败");
        exit(EXIT_FAILURE);
    }
    printf("原始工作目录: %s\n", original_dir);
    
    // 示例1: 基本的目录切换操作
    printf("\n示例1: 基本的目录切换操作\n");
    
    // 切换到根目录
    if (chdir("/") == -1) {
        perror("切换到根目录失败");
    } else {
        printf("成功切换到根目录\n");
        if (getcwd(buffer, sizeof(buffer)) != NULL) {
            printf("当前目录: %s\n", buffer);
        }
    }
    
    // 切换回原始目录
    if (chdir(original_dir) == -1) {
        perror("返回原始目录失败");
    } else {
        printf("成功返回原始目录\n");
        if (getcwd(buffer, sizeof(buffer)) != NULL) {
            printf("当前目录: %s\n", buffer);
        }
    }
    
    // 示例2: 创建测试环境
    printf("\n示例2: 创建测试环境\n");
    
    // 创建测试目录结构
    const char *base_dir = "test_chdir_base";
    const char *sub_dir1 = "test_chdir_base/subdir1";
    const char *sub_dir2 = "test_chdir_base/subdir2";
    const char *deep_dir = "test_chdir_base/subdir1/deepdir";
    
    // 创建目录
    if (mkdir(base_dir, 0755) == -1 && errno != EEXIST) {
        perror("创建基础目录失败");
    } else {
        printf("创建基础目录: %s\n", base_dir);
    }
    
    if (mkdir(sub_dir1, 0755) == -1 && errno != EEXIST) {
        perror("创建子目录1失败");
    } else {
        printf("创建子目录1: %s\n", sub_dir1);
    }
    
    if (mkdir(sub_dir2, 0755) == -1 && errno != EEXIST) {
        perror("创建子目录2失败");
    } else {
        printf("创建子目录2: %s\n", sub_dir2);
    }
    
    if (mkdir(deep_dir, 0755) == -1 && errno != EEXIST) {
        perror("创建深层目录失败");
    } else {
        printf("创建深层目录: %s\n", deep_dir);
    }
    
    // 在目录中创建测试文件
    int fd = open("test_chdir_base/test_file.txt", O_CREAT | O_WRONLY, 0644);
    if (fd != -1) {
        const char *content = "Test file content for chdir demonstration";
        write(fd, content, strlen(content));
        close(fd);
        printf("创建测试文件: test_chdir_base/test_file.txt\n");
    }
    
    // 示例3: 绝对路径和相对路径切换
    printf("\n示例3: 绝对路径和相对路径切换\n");
    
    // 使用绝对路径切换
    char absolute_path[PATH_MAX * 2];
    snprintf(absolute_path, sizeof(absolute_path), "%s/%s", original_dir, base_dir);
    printf("使用绝对路径切换: %s\n", absolute_path);
    
    if (chdir(absolute_path) == -1) {
        perror("使用绝对路径切换失败");
    } else {
        printf("绝对路径切换成功\n");
        if (getcwd(buffer, sizeof(buffer)) != NULL) {
            printf("当前目录: %s\n", buffer);
        }
    }
    
    // 使用相对路径切换到子目录
    printf("使用相对路径切换到子目录1\n");
    if (chdir("subdir1") == -1) {
        perror("切换到子目录1失败");
    } else {
        printf("切换到子目录1成功\n");
        if (getcwd(buffer, sizeof(buffer)) != NULL) {
            printf("当前目录: %s\n", buffer);
        }
    }
    
    // 使用相对路径返回上级目录
    printf("使用相对路径返回上级目录\n");
    if (chdir("..") == -1) {
        perror("返回上级目录失败");
    } else {
        printf("返回上级目录成功\n");
        if (getcwd(buffer, sizeof(buffer)) != NULL) {
            printf("当前目录: %s\n", buffer);
        }
    }
    
    // 切换到深层目录
    printf("切换到深层目录\n");
    if (chdir("subdir1/deepdir") == -1) {
        perror("切换到深层目录失败");
    } else {
        printf("切换到深层目录成功\n");
        if (getcwd(buffer, sizeof(buffer)) != NULL) {
            printf("当前目录: %s\n", buffer);
        }
    }
    
    // 使用多个..返回
    printf("使用多个..返回原始目录\n");
    if (chdir("../../..") == -1) {
        perror("多级返回失败");
    } else {
        printf("多级返回成功\n");
        if (getcwd(buffer, sizeof(buffer)) != NULL) {
            printf("当前目录: %s\n", buffer);
        }
    }
    
    // 示例4: 目录切换的副作用演示
    printf("\n示例4: 目录切换的副作用演示\n");
    
    // 切换到测试目录
    if (chdir(base_dir) == -1) {
        perror("切换到测试目录失败");
    } else {
        printf("切换到测试目录\n");
        
        // 在当前目录创建文件
        fd = open("created_in_cwd.txt", O_CREAT | O_WRONLY, 0644);
        if (fd != -1) {
            const char *file_content = "File created in current working directory";
            write(fd, file_content, strlen(file_content));
            close(fd);
            printf("在当前目录创建文件: created_in_cwd.txt\n");
        }
        
        // 列出当前目录文件
        printf("当前目录文件:\n");
        system("ls -la");
        
        // 切换目录后再次查看
        if (chdir("subdir1") == -1) {
            perror("切换到子目录失败");
        } else {
            printf("\n切换到子目录后:\n");
            system("ls -la");
        }
    }
    
    // 返回原始目录
    if (chdir(original_dir) == -1) {
        perror("返回原始目录失败");
    }
    
    // 示例5: 错误处理演示
    printf("\n示例5: 错误处理演示\n");
    
    // 尝试切换到不存在的目录
    if (chdir("/nonexistent/directory") == -1) {
        printf("切换到不存在的目录: %s\n", strerror(errno));
    }
    
    // 尝试切换到文件而不是目录
    if (chdir("/etc/passwd") == -1) {
        printf("切换到文件而非目录: %s\n", strerror(errno));
    }
    
    // 尝试切换到没有权限的目录
    if (chdir("/root") == -1) {
        printf("切换到无权限目录: %s\n", strerror(errno));
    }
    
    // 尝试使用过长的路径名
    char long_path[PATH_MAX + 100];
    memset(long_path, 'a', sizeof(long_path) - 1);
    long_path[sizeof(long_path) - 1] = '\0';
    if (chdir(long_path) == -1) {
        printf("使用过长路径名: %s\n", strerror(errno));
    }
    
    // 示例6: 实际应用场景
    printf("\n示例6: 实际应用场景\n");
    
    // 场景1: 程序初始化时切换到工作目录
    printf("场景1: 程序工作目录设置\n");
    const char *work_dir = "/tmp";
    if (chdir(work_dir) == -1) {
        printf("无法切换到工作目录 %s: %s\n", work_dir, strerror(errno));
        printf("使用当前目录作为工作目录\n");
    } else {
        printf("成功切换到工作目录: %s\n", work_dir);
    }
    
    // 场景2: 备份脚本中的目录操作
    printf("场景2: 备份操作模拟\n");
    char backup_dir[PATH_MAX];
    snprintf(backup_dir, sizeof(backup_dir), "%s/backup_test", original_dir);
    
    // 创建备份目录
    if (mkdir(backup_dir, 0755) == -1 && errno != EEXIST) {
        perror("创建备份目录失败");
    } else {
        printf("创建备份目录: %s\n", backup_dir);
        
        // 切换到备份目录
        if (chdir(backup_dir) == -1) {
            perror("切换到备份目录失败");
        } else {
            printf("切换到备份目录进行操作\n");
            
            // 模拟备份操作
            system("echo 'Backup operation in progress...' > backup.log");
            system("date >> backup.log");
            printf("备份操作记录已保存\n");
        }
    }
    
    // 场景3: 构建系统中的目录管理
    printf("场景3: 构建系统目录管理\n");
    struct {
        const char *dir_name;
        const char *purpose;
    } build_dirs[] = {
        {"src", "源代码目录"},
        {"include", "头文件目录"},
        {"lib", "库文件目录"},
        {"bin", "可执行文件目录"},
        {"obj", "目标文件目录"}
    };
    
    // 切换到基础目录
    if (chdir(base_dir) == -1) {
        perror("切换到基础目录失败");
    } else {
        printf("在 %s 中创建构建目录结构:\n", base_dir);
        
        for (int i = 0; i < 5; i++) {
            if (mkdir(build_dirs[i].dir_name, 0755) == -1 && errno != EEXIST) {
                printf("  创建 %s 失败: %s\n", build_dirs[i].dir_name, strerror(errno));
            } else {
                printf("  创建 %s (%s)\n", build_dirs[i].dir_name, build_dirs[i].purpose);
            }
        }
    }
    
    // 场景4: Web服务器目录切换
    printf("场景4: Web服务器目录安全\n");
    const char *web_root = "/var/www";
    printf("Web服务器尝试切换到根目录: %s\n", web_root);
    
    // 检查目录是否存在和可访问
    if (access(web_root, F_OK) == 0) {
        if (access(web_root, R_OK | X_OK) == 0) {
            printf("目录存在且可访问\n");
            // 在实际应用中会进行chdir操作
        } else {
            printf("目录存在但权限不足\n");
        }
    } else {
        printf("目录不存在或无法访问\n");
    }
    
    // 示例7: 目录切换的安全考虑
    printf("\n示例7: 目录切换的安全考虑\n");
    
    // 保存原始目录文件描述符（用于安全返回）
    int original_fd = open(".", O_RDONLY);
    if (original_fd != -1) {
        printf("保存原始目录文件描述符: %d\n", original_fd);
        
        // 执行目录切换
        if (chdir(base_dir) == -1) {
            perror("切换目录失败");
        } else {
            printf("切换到测试目录\n");
            
            // 执行一些操作
            system("pwd");
            
            // 使用文件描述符安全返回
            if (fchdir(original_fd) == -1) {
                perror("使用文件描述符返回失败");
            } else {
                printf("使用文件描述符安全返回原始目录\n");
                system("pwd");
            }
        }
        
        close(original_fd);
    }
    
    // 示例8: 相对路径解析演示
    printf("\n示例8: 相对路径解析\n");
    
    if (chdir(base_dir) == -1) {
        perror("切换到测试目录失败");
    } else {
        printf("当前目录: ");
        system("pwd");
        
        // 相对路径解析示例
        struct {
            const char *relative_path;
            const char *description;
        } paths[] = {
            {".", "当前目录"},
            {"..", "上级目录"},
            {"./subdir1", "当前目录下的子目录"},
            {"../subdir2", "上级目录下的另一个子目录"},
            {"subdir1/./deepdir", "带.的路径"},
            {"subdir1/../subdir2", "带..的路径"}
        };
        
        for (int i = 0; i < 6; i++) {
            printf("路径 '%s' (%s):\n", paths[i].relative_path, paths[i].description);
            
            // 保存当前位置
            int save_fd = open(".", O_RDONLY);
            if (save_fd != -1) {
                // 尝试切换
                if (chdir(paths[i].relative_path) == 0) {
                    printf("  切换成功: ");
                    system("pwd");
                    
                    // 返回原位置
                    if (fchdir(save_fd) == -1) {
                        perror("  返回失败");
                    }
                } else {
                    printf("  切换失败: %s\n", strerror(errno));
                }
                close(save_fd);
            }
            printf("\n");
        }
    }
    
    // 返回原始目录
    if (chdir(original_dir) == -1) {
        perror("最终返回原始目录失败");
    }
    
    // 清理测试资源
    printf("\n清理测试资源...\n");
    
    // 删除测试文件
    char test_file_path[PATH_MAX * 2];
    snprintf(test_file_path, sizeof(test_file_path), "%s/%s/created_in_cwd.txt", 
             original_dir, base_dir);
    if (access(test_file_path, F_OK) == 0) {
        unlink(test_file_path);
        printf("删除测试文件\n");
    }
    
    // 删除备份目录和文件
    char backup_file_path[PATH_MAX * 2];
    snprintf(backup_file_path, sizeof(backup_file_path), "%s/backup.log", backup_dir);
    if (access(backup_file_path, F_OK) == 0) {
        unlink(backup_file_path);
    }
    if (access(backup_dir, F_OK) == 0) {
        rmdir(backup_dir);
        printf("删除备份目录\n");
    }
    
    // 删除构建目录
    if (chdir(base_dir) == 0) {
        for (int i = 0; i < 5; i++) {
            rmdir(build_dirs[i].dir_name);
        }
        chdir(original_dir);
    }
    
    // 删除测试目录结构
    char deep_dir_path[PATH_MAX * 2];
    snprintf(deep_dir_path, sizeof(deep_dir_path), "%s/%s", original_dir, deep_dir);
    if (access(deep_dir_path, F_OK) == 0) {
        rmdir(deep_dir_path);
    }
    
    char subdir1_path[PATH_MAX * 2];
    snprintf(subdir1_path, sizeof(subdir1_path), "%s/%s", original_dir, sub_dir1);
    if (access(subdir1_path, F_OK) == 0) {
        rmdir(subdir1_path);
    }
    
    char subdir2_path[PATH_MAX * 2];
    snprintf(subdir2_path, sizeof(subdir2_path), "%s/%s", original_dir, sub_dir2);
    if (access(subdir2_path, F_OK) == 0) {
        rmdir(subdir2_path);
    }
    
    char test_file[PATH_MAX * 2];
    snprintf(test_file, sizeof(test_file), "%s/%s/test_file.txt", original_dir, base_dir);
    if (access(test_file, F_OK) == 0) {
        unlink(test_file);
    }
    
    char base_dir_path[PATH_MAX * 2];
    snprintf(base_dir_path, sizeof(base_dir_path), "%s/%s", original_dir, base_dir);
    if (access(base_dir_path, F_OK) == 0) {
        rmdir(base_dir_path);
        printf("删除测试目录结构完成\n");
    }
    
    return 0;
}

Linux开源软件路线图

chdir 系统调用, 改变当前工作目录, chdir 函数用法, Linux chdir 命令, 系统调用 chdir 示例, chdir 详解, 如何使用 chdir, chdir 函数介绍, Linux 系统调用 chdir, chdir 实现原理

发表在 linux文章 | 留下评论

adjtimex 函数系统调用及示例

发表于2025-08-05由麦芽爸

adjtimex 函数详解

1. 函数介绍

adjtimex 是Linux系统调用，用于查询和调整系统时钟的状态。它是NTP（Network Time Protocol）守护进程和其他时间同步工具的核心接口，提供了精确的时钟调整和状态查询功能。通过 adjtimex，可以实现高精度的时间同步和时钟管理。

2. 函数原型

#include <sys/timex.h>
int adjtimex(struct timex *buf);

3. 功能

adjtimex 允许用户查询系统时钟的状态信息，包括时钟偏移、频率调整、最大误差等，同时支持调整时钟参数以实现精确的时间同步。它是Linux时间子系统的重要组成部分，为高精度时间管理提供了底层支持。

4. 参数

*struct timex buf: 指向timex结构体的指针，用于传递时钟参数和接收状态信息

5. 返回值

成功: 返回时钟状态（TIME_OK, TIME_INS, TIME_DEL, TIME_OOP, TIME_WAIT, TIME_ERROR）
失败: 返回-1，并设置errno

6. 相似函数，或关联函数

settimeofday: 设置系统时间
gettimeofday: 获取系统时间
clock_adjtime: 更现代的时钟调整接口
ntp_adjtime: NTP时间调整函数
clock_gettime/clock_settime: 高精度时钟操作

7. 示例代码

示例1：基础adjtimex使用

#include <sys/timex.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <time.h>
#include <unistd.h>

/**
 * 显示时钟状态信息
 */
void show_clock_status(const struct timex *tx) {
    printf("=== 时钟状态信息 ===\n");
    
    // 时钟偏移
    printf("时钟偏移: %ld.%06ld 秒\n", 
           tx->offset / 1000000, labs(tx->offset) % 1000000);
    
    // 时钟频率
    printf("时钟频率: %ld ppm\n", tx->freq / 65536);  // 转换为ppm
    
    // 最大误差
    printf("最大误差: %ld 毫秒\n", tx->maxerror);
    
    // 估算误差
    printf("估算误差: %ld 毫秒\n", tx->esterror);
    
    // 状态标志
    printf("状态标志: 0x%04x\n", tx->status);
    printf("  ");
    if (tx->status & STA_PLL) printf("STA_PLL ");
    if (tx->status & STA_PPSFREQ) printf("STA_PPSFREQ ");
    if (tx->status & STA_PPSTIME) printf("STA_PPSTIME ");
    if (tx->status & STA_FLL) printf("STA_FLL ");
    if (tx->status & STA_INS) printf("STA_INS ");
    if (tx->status & STA_DEL) printf("STA_DEL ");
    if (tx->status & STA_UNSYNC) printf("STA_UNSYNC ");
    if (tx->status & STA_FREQHOLD) printf("STA_FREQHOLD ");
    if (tx->status & STA_PPSSIGNAL) printf("STA_PPSSIGNAL ");
    if (tx->status & STA_PPSJITTER) printf("STA_PPSJITTER ");
    if (tx->status & STA_PPSWANDER) printf("STA_PPSWANDER ");
    if (tx->status & STA_PPSERROR) printf("STA_PPSERROR ");
    if (tx->status & STA_CLOCKERR) printf("STA_CLOCKERR ");
    printf("\n");
    
    // 时钟精度
    printf("时钟精度: %ld 毫秒\n", tx->precision);
    
    // PLL时间常数
    printf("PLL时间常数: %ld\n", tx->constant);
    
    // PPM容忍度
    printf("PPM容忍度: %ld\n", tx->tolerance);
    
    // 时钟状态
    printf("时钟状态: ");
    switch (tx->state) {
        case TIME_OK: printf("TIME_OK (正常)\n"); break;
        case TIME_INS: printf("TIME_INS (即将插入闰秒)\n"); break;
        case TIME_DEL: printf("TIME_DEL (即将删除闰秒)\n"); break;
        case TIME_OOP: printf("TIME_OOP (闰秒处理中)\n"); break;
        case TIME_WAIT: printf("TIME_WAIT (等待同步)\n"); break;
        case TIME_ERROR: printf("TIME_ERROR (时钟错误)\n"); break;
        default: printf("未知状态 (%d)\n", tx->state); break;
    }
    
    printf("\n");
}

/**
 * 演示基础adjtimex使用方法
 */
int demo_adjtimex_basic() {
    struct timex tx;
    int result;
    
    printf("=== 基础adjtimex使用示例 ===\n");
    
    // 初始化timex结构体
    memset(&tx, 0, sizeof(tx));
    tx.modes = 0;  // 查询模式，不修改任何参数
    
    // 调用adjtimex查询时钟状态
    printf("1. 查询时钟状态:\n");
    result = adjtimex(&tx);
    
    if (result == -1) {
        printf("  查询时钟状态失败: %s\n", strerror(errno));
        if (errno == EPERM) {
            printf("  原因：需要CAP_SYS_TIME权限\n");
        } else if (errno == EINVAL) {
            printf("  原因：参数无效\n");
        }
        return -1;
    }
    
    printf("  查询成功\n");
    show_clock_status(&tx);
    
    // 显示时钟信息
    printf("2. 时钟详细信息:\n");
    printf("  系统时钟: %ld.%06ld 秒\n", tx.time.tv_sec, tx.time.tv_usec);
    
    // 显示频率调整信息
    printf("3. 频率调整信息:\n");
    printf("  频率偏移: %ld (系统单位)\n", tx.freq);
    printf("  频率偏移: %.3f ppm\n", (double)tx.freq / 65536.0);
    
    // 显示PLL参数
    printf("4. PLL参数:\n");
    printf("  PLL偏移: %ld\n", tx.offset);
    printf("  PLL最大误差: %ld 毫秒\n", tx.maxerror);
    printf("  PLL估算误差: %ld 毫秒\n", tx.esterror);
    printf("  PLL时间常数: %ld\n", tx.constant);
    
    // 演示权限检查
    printf("\n5. 权限检查:\n");
    uid_t uid = getuid();
    printf("  当前用户ID: %d\n", uid);
    if (uid == 0) {
        printf("  ✓ 具有root权限，可以调整时钟参数\n");
    } else {
        printf("  ✗ 没有root权限，只能查询时钟状态\n");
        printf("  提示：调整时钟参数需要root权限或CAP_SYS_TIME能力\n");
    }
    
    // 演示时钟状态解释
    printf("\n=== 时钟状态解释 ===\n");
    printf("TIME_OK: 时钟同步正常\n");
    printf("TIME_INS: 即将插入闰秒\n");
    printf("TIME_DEL: 即将删除闰秒\n");
    printf("TIME_OOP: 闰秒处理中\n");
    printf("TIME_WAIT: 等待同步\n");
    printf("TIME_ERROR: 时钟错误\n");
    
    // 演示状态标志解释
    printf("\n=== 状态标志解释 ===\n");
    printf("STA_PLL: PLL模式启用\n");
    printf("STA_PPSFREQ: PPS频率调整\n");
    printf("STA_PPSTIME: PPS时间调整\n");
    printf("STA_FLL: 频率锁定环模式\n");
    printf("STA_INS: 即将插入闰秒\n");
    printf("STA_DEL: 即将删除闰秒\n");
    printf("STA_UNSYNC: 时钟未同步\n");
    printf("STA_FREQHOLD: 频率保持\n");
    
    return 0;
}

int main() {
    return demo_adjtimex_basic();
}

示例2：时钟调整和同步

#include <sys/timex.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <time.h>
#include <unistd.h>
#include <math.h>

/**
 * 模拟NTP时间同步
 */
int simulate_ntp_synchronization() {
    struct timex tx;
    int result;
    double network_delay = 0.05;  // 50ms网络延迟
    double frequency_drift = 50.0;  // 50ppm频率漂移
    
    printf("=== NTP时间同步模拟 ===\n");
    
    // 获取当前时钟状态
    printf("1. 获取当前时钟状态:\n");
    memset(&tx, 0, sizeof(tx));
    tx.modes = 0;  // 查询模式
    
    result = adjtimex(&tx);
    if (result == -1) {
        printf("  获取时钟状态失败: %s\n", strerror(errno));
        return -1;
    }
    
    printf("  当前时钟频率: %.3f ppm\n", (double)tx.freq / 65536.0);
    printf("  当前最大误差: %ld 毫秒\n", tx.maxerror);
    printf("  当前估算误差: %ld 毫秒\n", tx.esterror);
    
    // 模拟网络时间查询
    printf("\n2. 模拟网络时间查询:\n");
    struct timeval network_time;
    gettimeofday(&network_time, NULL);
    
    // 模拟时钟偏移（100ms）
    long offset_us = 100000;  // 100ms偏移
    printf("  检测到时钟偏移: %.3f ms\n", offset_us / 1000.0);
    printf("  网络延迟: %.3f ms\n", network_delay * 1000);
    printf("  频率漂移: %.3f ppm\n", frequency_drift);
    
    // 调整时钟参数
    printf("\n3. 调整时钟参数:\n");
    if (getuid() == 0) {
        memset(&tx, 0, sizeof(tx));
        tx.modes = ADJ_OFFSET | ADJ_FREQUENCY;
        tx.offset = offset_us;  // 微秒偏移
        tx.freq = (long)(frequency_drift * 65536);  // 转换为系统单位
        
        printf("  设置时钟偏移: %ld 微秒\n", tx.offset);
        printf("  设置频率调整: %.3f ppm\n", (double)tx.freq / 65536.0);
        
        result = adjtimex(&tx);
        if (result == -1) {
            printf("  调整时钟参数失败: %s\n", strerror(errno));
        } else {
            printf("  ✓ 时钟参数调整成功\n");
            printf("  新时钟状态: ");
            switch (result) {
                case TIME_OK: printf("TIME_OK\n"); break;
                case TIME_INS: printf("TIME_INS\n"); break;
                case TIME_DEL: printf("TIME_DEL\n"); break;
                case TIME_OOP: printf("TIME_OOP\n"); break;
                case TIME_WAIT: printf("TIME_WAIT\n"); break;
                case TIME_ERROR: printf("TIME_ERROR\n"); break;
                default: printf("未知状态 %d\n", result); break;
            }
        }
    } else {
        printf("  ✗ 没有权限调整时钟参数\n");
        printf("  提示：需要root权限才能调整时钟\n");
    }
    
    // 验证调整结果
    printf("\n4. 验证调整结果:\n");
    memset(&tx, 0, sizeof(tx));
    tx.modes = 0;  // 查询模式
    
    result = adjtimex(&tx);
    if (result != -1) {
        printf("  调整后时钟频率: %.3f ppm\n", (double)tx.freq / 65536.0);
        printf("  调整后最大误差: %ld 毫秒\n", tx.maxerror);
        printf("  调整后估算误差: %ld 毫秒\n", tx.esterror);
    }
    
    return 0;
}

/**
 * 演示时钟频率调整
 */
int demo_frequency_adjustment() {
    struct timex tx;
    int result;
    
    printf("=== 时钟频率调整演示 ===\n");
    
    // 显示原始频率
    printf("1. 原始时钟频率:\n");
    memset(&tx, 0, sizeof(tx));
    tx.modes = 0;  // 查询模式
    
    result = adjtimex(&tx);
    if (result == -1) {
        printf("  查询时钟频率失败: %s\n", strerror(errno));
        return -1;
    }
    
    double original_freq = (double)tx.freq / 65536.0;
    printf("  原始频率: %.6f ppm\n", original_freq);
    
    // 调整频率（需要root权限）
    printf("\n2. 调整时钟频率:\n");
    if (getuid() == 0) {
        // 增加50ppm频率调整
        long freq_adjust = 50 * 65536;  // 50ppm转换为系统单位
        
        memset(&tx, 0, sizeof(tx));
        tx.modes = ADJ_FREQUENCY;
        tx.freq = freq_adjust;
        
        printf("  设置频率调整: %.3f ppm\n", (double)freq_adjust / 65536.0);
        
        result = adjtimex(&tx);
        if (result == -1) {
            printf("  频率调整失败: %s\n", strerror(errno));
        } else {
            printf("  ✓ 频率调整成功\n");
        }
        
        // 验证调整结果
        printf("\n3. 验证频率调整:\n");
        memset(&tx, 0, sizeof(tx));
        tx.modes = 0;  // 查询模式
        
        result = adjtimex(&tx);
        if (result != -1) {
            double new_freq = (double)tx.freq / 65536.0;
            printf("  调整后频率: %.6f ppm\n", new_freq);
            printf("  频率变化: %.6f ppm\n", new_freq - original_freq);
        }
        
        // 恢复原始频率
        printf("\n4. 恢复原始频率:\n");
        memset(&tx, 0, sizeof(tx));
        tx.modes = ADJ_FREQUENCY;
        tx.freq = (long)(original_freq * 65536);
        
        result = adjtimex(&tx);
        if (result == -1) {
            printf("  恢复原始频率失败: %s\n", strerror(errno));
        } else {
            printf("  ✓ 原始频率恢复成功\n");
        }
    } else {
        printf("  ✗ 没有权限调整时钟频率\n");
        printf("  提示：需要root权限才能调整时钟频率\n");
    }
    
    return 0;
}

int main() {
    printf("=== adjtimex时钟调整演示 ===\n");
    
    // 演示NTP同步模拟
    if (simulate_ntp_synchronization() != 0) {
        return -1;
    }
    
    printf("\n" "=" * 50 "\n");
    
    // 演示频率调整
    if (demo_frequency_adjustment() != 0) {
        return -1;
    }
    
    return 0;
}

示例3：高精度时间同步

#include <sys/timex.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <time.h>
#include <unistd.h>
#include <math.h>

/**
 * 高精度时间同步器结构
 */
typedef struct {
    double last_offset;      // 上次时钟偏移
    double last_frequency;   // 上次频率调整
    time_t last_sync_time;   // 上次同步时间
    int sync_count;          // 同步次数
    double avg_offset;       // 平均偏移
    double jitter;           // 抖动
    int precision_ppm;       // 精度(ppm)
} precision_sync_t;

/**
 * 初始化高精度同步器
 */
int init_precision_sync(precision_sync_t *sync) {
    memset(sync, 0, sizeof(precision_sync_t));
    sync->precision_ppm = 1;  // 1ppm精度
    sync->last_sync_time = time(NULL);
    
    printf("高精度时间同步器初始化完成\n");
    printf("  目标精度: %d ppm\n", sync->precision_ppm);
    
    return 0;
}

/**
 * 获取高精度时间
 */
int get_high_precision_time(struct timespec *ts) {
    struct timex tx;
    int result;
    
    memset(&tx, 0, sizeof(tx));
    tx.modes = 0;  // 查询模式
    
    result = adjtimex(&tx);
    if (result == -1) {
        return -1;
    }
    
    ts->tv_sec = tx.time.tv_sec;
    ts->tv_nsec = tx.time.tv_usec * 1000;  // 转换为纳秒
    
    return 0;
}

/**
 * 计算时钟偏移
 */
double calculate_clock_offset() {
    struct timespec system_time, precise_time;
    double offset;
    
    // 获取系统时间
    if (clock_gettime(CLOCK_REALTIME, &system_time) == -1) {
        return 0.0;
    }
    
    // 获取高精度时间
    if (get_high_precision_time(&precise_time) == -1) {
        return 0.0;
    }
    
    // 计算偏移（纳秒）
    offset = (precise_time.tv_sec - system_time.tv_sec) * 1000000000.0 +
             (precise_time.tv_nsec - system_time.tv_nsec);
    
    return offset / 1000000.0;  // 转换为毫秒
}

/**
 * 演示高精度时间同步
 */
int demo_high_precision_sync() {
    precision_sync_t sync;
    struct timex tx;
    int result;
    int sync_attempts = 5;
    
    printf("=== 高精度时间同步演示 ===\n");
    
    // 初始化同步器
    printf("1. 初始化高精度同步器:\n");
    if (init_precision_sync(&sync) != 0) {
        return -1;
    }
    
    // 显示初始时钟状态
    printf("\n2. 初始时钟状态:\n");
    memset(&tx, 0, sizeof(tx));
    tx.modes = 0;  // 查询模式
    
    result = adjtimex(&tx);
    if (result == -1) {
        printf("  获取时钟状态失败: %s\n", strerror(errno));
        return -1;
    }
    
    printf("  时钟状态: ");
    switch (tx.state) {
        case TIME_OK: printf("TIME_OK (正常)\n"); break;
        case TIME_ERROR: printf("TIME_ERROR (错误)\n"); break;
        default: printf("状态 %d\n", tx.state); break;
    }
    
    printf("  当前频率: %.3f ppm\n", (double)tx.freq / 65536.0);
    printf("  最大误差: %ld 毫秒\n", tx.maxerror);
    printf("  估算误差: %ld 毫秒\n", tx.esterror);
    printf("  时钟精度: %ld 毫秒\n", tx.precision);
    
    // 模拟高精度时间同步过程
    printf("\n3. 高精度时间同步过程:\n");
    
    for (int i = 0; i < sync_attempts; i++) {
        printf("  第 %d 次同步:\n", i + 1);
        
        // 模拟网络时间查询
        double network_offset = (rand() % 1000 - 500) / 1000.0;  // -0.5到0.5毫秒
        double network_delay = (rand() % 100) / 1000.0;  // 0到0.1毫秒
        
        printf("    网络偏移: %.3f ms\n", network_offset);
        printf("    网络延迟: %.3f ms\n", network_delay);
        
        // 计算真实的时钟偏移
        double actual_offset = calculate_clock_offset();
        printf("    实际偏移: %.3f ms\n", actual_offset);
        
        // 计算综合偏移
        double total_offset = network_offset + actual_offset;
        printf("    综合偏移: %.3f ms\n", total_offset);
        
        // 更新同步统计
        sync.last_offset = total_offset;
        sync.avg_offset = (sync.avg_offset * sync.sync_count + total_offset) / (sync.sync_count + 1);
        sync.sync_count++;
        
        // 计算抖动
        if (sync.sync_count > 1) {
            sync.jitter = fabs(total_offset - sync.avg_offset);
        }
        
        printf("    平均偏移: %.3f ms\n", sync.avg_offset);
        printf("    当前抖动: %.3f ms\n", sync.jitter);
        
        // 如果有root权限，进行时钟调整
        if (getuid() == 0) {
            memset(&tx, 0, sizeof(tx));
            tx.modes = ADJ_OFFSET | ADJ_STATUS;
            tx.offset = (long)(total_offset * 1000);  // 转换为微秒
            tx.status = STA_PLL;  // 启用PLL模式
            
            printf("    调整时钟偏移: %ld 微秒\n", tx.offset);
            
            result = adjtimex(&tx);
            if (result == -1) {
                printf("    时钟调整失败: %s\n", strerror(errno));
            } else {
                printf("    ✓ 时钟调整成功\n");
            }
        } else {
            printf("    ℹ 没有权限进行时钟调整\n");
        }
        
        // 记录同步时间
        sync.last_sync_time = time(NULL);
        
        if (i < sync_attempts - 1) {
            sleep(2);  // 间隔同步
        }
    }
    
    // 显示最终同步结果
    printf("\n4. 最终同步结果:\n");
    printf("  同步次数: %d\n", sync.sync_count);
    printf("  最后偏移: %.3f ms\n", sync.last_offset);
    printf("  平均偏移: %.3f ms\n", sync.avg_offset);
    printf("  最大抖动: %.3f ms\n", sync.jitter);
    printf("  最后同步: %s", ctime(&sync.last_sync_time));
    
    // 计算同步精度
    double sync_accuracy = 1000.0 / pow(10, sync.precision_ppm);  // 简化的精度计算
    printf("  同步精度: %.6f 秒\n", sync_accuracy);
    
    // 显示高精度同步优势
    printf("\n=== 高精度同步优势 ===\n");
    printf("1. 精度提升:\n");
    printf("   ✓ 纳秒级时间精度\n");
    printf("   ✓ 微秒级偏移调整\n");
    printf("   ✓ PPM级频率控制\n");
    
    printf("\n2. 稳定性保障:\n");
    printf("   ✓ 抖动抑制\n");
    printf("   ✓ 误差累积控制\n");
    printf("   ✓ 频率漂移补偿\n");
    
    printf("\n3. 实时性:\n");
    printf("   ✓ 快速收敛\n");
    printf("   ✓ 动态调整\n");
    printf("   ✓ 状态监控\n");
    
    return 0;
}

int main() {
    return demo_high_precision_sync();
}

示例4：时间同步监控

#include <sys/timex.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <time.h>
#include <unistd.h>
#include <math.h>

/**
 * 时间同步监控数据结构
 */
typedef struct {
    time_t timestamp;
    long offset_us;      // 偏移(微秒)
    long frequency_ppm;   // 频率(ppm)
    long max_error_ms;   // 最大误差(毫秒)
    long est_error_ms;   // 估算误差(毫秒)
    int clock_state;     // 时钟状态
    int status_flags;    // 状态标志
    double jitter_ms;    // 抖动(毫秒)
} sync_monitor_data_t;

/**
 * 时间同步监控器
 */
typedef struct {
    sync_monitor_data_t history[100];  // 历史数据
    int history_count;
    int max_history;
    time_t start_time;
    int monitoring;
} sync_monitor_t;

/**
 * 初始化监控器
 */
int init_sync_monitor(sync_monitor_t *monitor) {
    memset(monitor, 0, sizeof(sync_monitor_t));
    monitor->max_history = 100;
    monitor->start_time = time(NULL);
    monitor->monitoring = 1;
    
    printf("时间同步监控器初始化完成\n");
    printf("  最大历史记录数: %d\n", monitor->max_history);
    printf("  启动时间: %s", ctime(&monitor->start_time));
    
    return 0;
}

/**
 * 收集时钟状态数据
 */
int collect_clock_data(sync_monitor_t *monitor) {
    struct timex tx;
    int result;
    
    if (monitor->history_count >= monitor->max_history) {
        // 循环覆盖旧数据
        memmove(&monitor->history[0], &monitor->history[1], 
                sizeof(sync_monitor_data_t) * (monitor->max_history - 1));
        monitor->history_count = monitor->max_history - 1;
    }
    
    sync_monitor_data_t *current = &monitor->history[monitor->history_count];
    
    // 获取时钟状态
    memset(&tx, 0, sizeof(tx));
    tx.modes = 0;  // 查询模式
    
    result = adjtimex(&tx);
    if (result == -1) {
        printf("获取时钟状态失败: %s\n", strerror(errno));
        return -1;
    }
    
    // 填充监控数据
    current->timestamp = time(NULL);
    current->offset_us = tx.offset;
    current->frequency_ppm = tx.freq / 65536;
    current->max_error_ms = tx.maxerror;
    current->est_error_ms = tx.esterror;
    current->clock_state = tx.state;
    current->status_flags = tx.status;
    current->jitter_ms = 0.0;  // 简化处理
    
    // 计算抖动（与前一个采样点的差异）
    if (monitor->history_count > 0) {
        sync_monitor_data_t *previous = &monitor->history[monitor->history_count - 1];
        current->jitter_ms = fabs((current->offset_us - previous->offset_us) / 1000.0);
    }
    
    monitor->history_count++;
    
    return 0;
}

/**
 * 显示时钟状态
 */
void show_clock_status(const sync_monitor_data_t *data) {
    printf("时间: %s", ctime(&data->timestamp));
    printf("  时钟偏移: %.3f ms\n", data->offset_us / 1000.0);
    printf("  频率调整: %ld ppm\n", data->frequency_ppm);
    printf("  最大误差: %ld ms\n", data->max_error_ms);
    printf("  估算误差: %ld ms\n", data->est_error_ms);
    printf("  时钟状态: %d\n", data->clock_state);
    printf("  抖动: %.3f ms\n", data->jitter_ms);
    
    printf("  状态标志: 0x%04x ", data->status_flags);
    if (data->status_flags & STA_PLL) printf("STA_PLL ");
    if (data->status_flags & STA_UNSYNC) printf("STA_UNSYNC ");
    if (data->status_flags & STA_FREQHOLD) printf("STA_FREQHOLD ");
    printf("\n");
}

/**
 * 分析时间同步质量
 */
void analyze_sync_quality(const sync_monitor_t *monitor) {
    if (monitor->history_count < 2) {
        printf("数据不足，无法分析同步质量\n");
        return;
    }
    
    printf("=== 时间同步质量分析 ===\n");
    
    // 计算统计信息
    double total_offset = 0, max_offset = 0, min_offset = 999999;
    double total_jitter = 0, max_jitter = 0;
    long total_error = 0, max_error = 0;
    int sync_ok_count = 0;
    
    for (int i = 0; i < monitor->history_count; i++) {
        const sync_monitor_data_t *data = &monitor->history[i];
        double abs_offset = fabs(data->offset_us / 1000.0);
        
        total_offset += abs_offset;
        total_jitter += data->jitter_ms;
        total_error += data->est_error_ms;
        
        if (abs_offset > max_offset) max_offset = abs_offset;
        if (abs_offset < min_offset) min_offset = abs_offset;
        if (data->jitter_ms > max_jitter) max_jitter = data->jitter_ms;
        if (data->est_error_ms > max_error) max_error = data->est_error_ms;
        
        if (abs_offset < 10.0) sync_ok_count++;  // 10ms以内认为同步良好
    }
    
    double avg_offset = total_offset / monitor->history_count;
    double avg_jitter = total_jitter / monitor->history_count;
    double avg_error = (double)total_error / monitor->history_count;
    double sync_quality = (double)sync_ok_count / monitor->history_count * 100;
    
    printf("同步质量统计:\n");
    printf("  平均偏移: %.3f ms\n", avg_offset);
    printf("  最大偏移: %.3f ms\n", max_offset);
    printf("  最小偏移: %.3f ms\n", min_offset);
    printf("  平均抖动: %.3f ms\n", avg_jitter);
    printf("  最大抖动: %.3f ms\n", max_jitter);
    printf("  平均误差: %.3f ms\n", avg_error);
    printf("  最大误差: %ld ms\n", max_error);
    printf("  同步质量: %.1f%%\n", sync_quality);
    
    // 质量评估
    printf("\n质量评估:\n");
    if (avg_offset < 1.0) {
        printf("  ✓ 优秀: 平均偏移 < 1ms\n");
    } else if (avg_offset < 10.0) {
        printf("  ℹ 良好: 平均偏移 < 10ms\n");
    } else {
        printf("  ⚠ 需要改善: 平均偏移 > 10ms\n");
    }
    
    if (sync_quality > 95.0) {
        printf("  ✓ 高可靠性: 同步质量 > 95%%\n");
    } else if (sync_quality > 80.0) {
        printf("  ℹ 中等可靠性: 同步质量 > 80%%\n");
    } else {
        printf("  ⚠ 低可靠性: 同步质量 < 80%%\n");
    }
}

/**
 * 演示时间同步监控
 */
int demo_sync_monitoring() {
    sync_monitor_t monitor;
    const int monitor_duration = 30;  // 监控30秒
    time_t start_time, current_time;
    
    printf("=== 时间同步监控演示 ===\n");
    
    // 初始化监控器
    printf("1. 初始化监控器:\n");
    if (init_sync_monitor(&monitor) != 0) {
        return -1;
    }
    
    // 开始监控
    printf("\n2. 开始时间同步监控:\n");
    printf("   监控时长: %d 秒\n", monitor_duration);
    printf("   采样间隔: 2 秒\n");
    
    start_time = time(NULL);
    
    while (difftime(time(NULL), start_time) < monitor_duration) {
        // 收集时钟数据
        if (collect_clock_data(&monitor) == 0) {
            if (monitor.history_count > 0) {
                const sync_monitor_data_t *latest = 
                    &monitor.history[monitor.history_count - 1];
                
                printf("\n--- 采样点 %d ---\n", monitor.history_count);
                show_clock_status(latest);
            }
        } else {
            printf("收集时钟数据失败\n");
        }
        
        sleep(2);  // 2秒采样间隔
    }
    
    // 显示监控结果
    printf("\n3. 监控结果:\n");
    printf("  总采样点数: %d\n", monitor.history_count);
    printf("  监控时长: %.0f 秒\n", difftime(time(NULL), start_time));
    
    if (monitor.history_count > 0) {
        printf("  最新数据:\n");
        const sync_monitor_data_t *latest = 
            &monitor.history[monitor.history_count - 1];
        show_clock_status(latest);
    }
    
    // 分析同步质量
    printf("\n4. 同步质量分析:\n");
    analyze_sync_quality(&monitor);
    
    // 显示历史趋势
    printf("\n5. 历史趋势 (最后10个采样点):\n");
    int start_index = (monitor.history_count > 10) ? monitor.history_count - 10 : 0;
    
    printf("%-20s %-10s %-8s %-8s %-8s\n", 
           "时间", "偏移(ms)", "频率(ppm)", "误差(ms)", "抖动(ms)");
    printf("%-20s %-10s %-8s %-8s %-8s\n", 
           "----", "--------", "--------", "--------", "--------");
    
    for (int i = start_index; i < monitor.history_count; i++) {
        const sync_monitor_data_t *data = &monitor.history[i];
        char time_str[20];
        strftime(time_str, sizeof(time_str), "%H:%M:%S", localtime(&data->timestamp));
        
        printf("%-20s %-10.3f %-8ld %-8ld %-8.3f\n",
               time_str,
               data->offset_us / 1000.0,
               data->frequency_ppm,
               data->est_error_ms,
               data->jitter_ms);
    }
    
    return 0;
}

int main() {
    return demo_sync_monitoring();
}

示例5：NTP客户端实现

#include <sys/timex.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <time.h>
#include <unistd.h>
#include <math.h>

/**
 * NTP服务器信息结构
 */
typedef struct {
    char hostname[256];
    int port;
    double stratum;          // 层级
    double delay;            // 延迟
    double offset;           // 偏移
    double dispersion;       // 离散度
    time_t last_contact;     // 最后联系时间
    int reachable;           // 是否可达
} ntp_server_t;

/**
 * NTP客户端结构
 */
typedef struct {
    ntp_server_t servers[5];
    int server_count;
    int current_server;
    double sync_threshold;   // 同步阈值(毫秒)
    double max_adjustment;    // 最大调整值(毫秒)
    int sync_interval;       // 同步间隔(秒)
} ntp_client_t;

/**
 * 初始化NTP客户端
 */
int init_ntp_client(ntp_client_t *client) {
    memset(client, 0, sizeof(ntp_client_t));
    
    // 初始化测试服务器
    const char *test_servers[] = {
        "pool.ntp.org",
        "time.google.com",
        "time.cloudflare.com",
        "ntp.aliyun.com",
        NULL
    };
    
    printf("=== NTP客户端初始化 ===\n");
    
    for (int i = 0; test_servers[i] && i < 5; i++) {
        ntp_server_t *server = &client->servers[i];
        strncpy(server->hostname, test_servers[i], sizeof(server->hostname) - 1);
        server->hostname[sizeof(server->hostname) - 1] = '\0';
        server->port = 123;  // NTP标准端口
        server->stratum = 2 + i;  // 模拟不同层级
        server->delay = 0.05 + (rand() / (double)RAND_MAX) * 0.1;  // 50-150ms延迟
        server->offset = (rand() / (double)RAND_MAX) * 2.0 - 1.0;  // -1到1秒偏移
        server->dispersion = 0.01 + (rand() / (double)RAND_MAX) * 0.05;  // 10-60ms离散度
        server->last_contact = time(NULL);
        server->reachable = 1;  // 模拟可达
        
        client->server_count++;
        printf("  添加服务器 %d: %s (层级: %.0f)\n", 
               i + 1, server->hostname, server->stratum);
    }
    
    client->current_server = 0;
    client->sync_threshold = 100.0;  // 100ms阈值
    client->max_adjustment = 500.0;   // 500ms最大调整
    client->sync_interval = 60;       // 60秒同步间隔
    
    printf("  同步阈值: %.1f ms\n", client->sync_threshold);
    printf("  最大调整: %.1f ms\n", client->max_adjustment);
    printf("  同步间隔: %d 秒\n", client->sync_interval);
    
    return 0;
}

/**
 * 选择最佳NTP服务器
 */
int select_best_ntp_server(ntp_client_t *client) {
    int best_server = -1;
    double best_quality = 999999.0;
    
    printf("选择最佳NTP服务器:\n");
    
    for (int i = 0; i < client->server_count; i++) {
        ntp_server_t *server = &client->servers[i];
        
        if (server->reachable) {
            // 计算服务器质量（基于层级、延迟和离散度）
            double quality = server->stratum + server->delay * 10 + server->dispersion * 5;
            
            printf("  服务器 %d (%s): 质量评分 %.3f\n", 
                   i + 1, server->hostname, quality);
            
            if (quality < best_quality) {
                best_quality = quality;
                best_server = i;
            }
        }
    }
    
    if (best_server != -1) {
        client->current_server = best_server;
        printf("  选择最佳服务器: %s\n", 
               client->servers[best_server].hostname);
    }
    
    return best_server;
}

/**
 * 模拟NTP时间同步
 */
int simulate_ntp_sync(ntp_client_t *client) {
    struct timex tx;
    int result;
    int best_server = select_best_ntp_server(client);
    
    if (best_server == -1) {
        printf("没有可用的NTP服务器\n");
        return -1;
    }
    
    ntp_server_t *server = &client->servers[best_server];
    
    printf("=== NTP时间同步 ===\n");
    printf("同步服务器: %s\n", server->hostname);
    printf("服务器层级: %.0f\n", server->stratum);
    printf("网络延迟: %.3f 秒\n", server->delay);
    printf("时钟偏移: %.3f 秒\n", server->offset);
    printf("离散度: %.3f 秒\n", server->dispersion);
    
    // 检查是否需要同步
    if (fabs(server->offset) * 1000 > client->sync_threshold) {
        printf("时钟偏移过大，需要同步\n");
        
        // 如果有root权限，进行时钟调整
        if (getuid() == 0) {
            printf("具有root权限，进行时钟调整:\n");
            
            memset(&tx, 0, sizeof(tx));
            
            // 根据偏移大小选择调整策略
            if (fabs(server->offset) > 1.0) {
                // 大偏移：步进调整
                printf("  大偏移调整:\n");
                tx.modes = ADJ_SETOFFSET;
                tx.time.tv_sec = (long)server->offset;
                tx.time.tv_usec = (long)((server->offset - (long)server->offset) * 1000000);
                printf("    设置时间偏移: %ld.%06ld 秒\n", 
                       tx.time.tv_sec, tx.time.tv_usec);
            } else {
                // 小偏移：渐进调整
                printf("  渐进调整:\n");
                tx.modes = ADJ_OFFSET | ADJ_STATUS;
                tx.offset = (long)(server->offset * 1000000);  // 转换为微秒
                tx.status = STA_PLL;
                printf("    调整偏移: %ld 微秒\n", tx.offset);
            }
            
            result = adjtimex(&tx);
            if (result == -1) {
                printf("  时钟调整失败: %s\n", strerror(errno));
                return -1;
            }
            
            printf("  ✓ 时钟调整成功\n");
            
            // 显示调整后的状态
            printf("  调整后状态: ");
            switch (result) {
                case TIME_OK: printf("TIME_OK\n"); break;
                case TIME_INS: printf("TIME_INS\n"); break;
                case TIME_DEL: printf("TIME_DEL\n"); break;
                case TIME_OOP: printf("TIME_OOP\n"); break;
                case TIME_WAIT: printf("TIME_WAIT\n"); break;
                case TIME_ERROR: printf("TIME_ERROR\n"); break;
                default: printf("状态 %d\n", result); break;
            }
        } else {
            printf("没有root权限，无法进行时钟调整\n");
            printf("建议使用NTP守护进程进行时间同步\n");
        }
    } else {
        printf("时钟偏移在可接受范围内，无需调整\n");
    }
    
    // 更新服务器联系时间
    server->last_contact = time(NULL);
    
    return 0;
}

/**
 * 演示NTP客户端功能
 */
int demo_ntp_client() {
    ntp_client_t client;
    struct timex tx;
    int result;
    
    printf("=== NTP客户端功能演示 ===\n");
    
    // 初始化客户端
    printf("1. 初始化NTP客户端:\n");
    if (init_ntp_client(&client) != 0) {
        return -1;
    }
    
    // 显示当前系统时间
    printf("\n2. 当前系统时间:\n");
    struct timeval current_time;
    gettimeofday(&current_time, NULL);
    printf("  系统时间: %ld.%06ld\n", current_time.tv_sec, current_time.tv_usec);
    
    // 获取当前时钟状态
    printf("\n3. 当前时钟状态:\n");
    memset(&tx, 0, sizeof(tx));
    tx.modes = 0;  // 查询模式
    
    result = adjtimex(&tx);
    if (result != -1) {
        printf("  时钟状态: ");
        switch (tx.state) {
            case TIME_OK: printf("TIME_OK (正常)\n"); break;
            case TIME_ERROR: printf("TIME_ERROR (错误)\n"); break;
            default: printf("状态 %d\n", tx.state); break;
        }
        printf("  时钟偏移: %ld.%06ld 秒\n", tx.offset / 1000000, labs(tx.offset) % 1000000);
        printf("  时钟频率: %.3f ppm\n", (double)tx.freq / 65536.0);
        printf("  最大误差: %ld 毫秒\n", tx.maxerror);
        printf("  估算误差: %ld 毫秒\n", tx.esterror);
    }
    
    // 模拟NTP同步
    printf("\n4. 模拟NTP时间同步:\n");
    if (simulate_ntp_sync(&client) != 0) {
        printf("NTP同步失败\n");
        return -1;
    }
    
    // 显示同步后状态
    printf("\n5. 同步后时钟状态:\n");
    memset(&tx, 0, sizeof(tx));
    tx.modes = 0;  // 查询模式
    
    result = adjtimex(&tx);
    if (result != -1) {
        printf("  时钟状态: ");
        switch (result) {
            case TIME_OK: printf("TIME_OK (正常)\n"); break;
            case TIME_INS: printf("TIME_INS (即将插入闰秒)\n"); break;
            case TIME_DEL: printf("TIME_DEL (即将删除闰秒)\n"); break;
            case TIME_OOP: printf("TIME_OOP (闰秒处理中)\n"); break;
            case TIME_WAIT: printf("TIME_WAIT (等待同步)\n"); break;
            case TIME_ERROR: printf("TIME_ERROR (时钟错误)\n"); break;
            default: printf("状态 %d\n", result); break;
        }
        printf("  时钟偏移: %ld.%06ld 秒\n", tx.offset / 1000000, labs(tx.offset) % 1000000);
        printf("  时钟频率: %.3f ppm\n", (double)tx.freq / 65536.0);
        printf("  最大误差: %ld 毫秒\n", tx.maxerror);
        printf("  估算误差: %ld 毫秒\n", tx.esterror);
    }
    
    // 显示NTP服务器信息
    printf("\n6. NTP服务器信息:\n");
    for (int i = 0; i < client.server_count; i++) {
        ntp_server_t *server = &client.servers[i];
        printf("  服务器 %d: %s\n", i + 1, server->hostname);
        printf("    层级: %.0f\n", server->stratum);
        printf("    延迟: %.3f 秒\n", server->delay);
        printf("    偏移: %.3f 秒\n", server->offset);
        printf("    离散度: %.3f 秒\n", server->dispersion);
        printf("    最后联系: %s", ctime(&server->last_contact));
        printf("    可达: %s\n", server->reachable ? "是" : "否");
    }
    
    // 显示NTP客户端优势
    printf("\n=== NTP客户端优势 ===\n");
    printf("1. 高精度同步:\n");
    printf("   ✓ 微秒级时间精度\n");
    printf("   ✓ PPM级频率控制\n");
    printf("   ✓ 毫秒级偏移调整\n");
    
    printf("\n2. 智能选择:\n");
    printf("   ✓ 多服务器支持\n");
    printf("   ✓ 质量评分算法\n");
    printf("   ✓ 动态服务器切换\n");
    
    printf("\n3. 安全特性:\n");
    printf("   ✓ 权限检查\n");
    printf("   ✓ 错误处理\n");
    printf("   ✓ 状态监控\n");
    
    printf("\n4. 灵活配置:\n");
    printf("   ✓ 可配置阈值\n");
    printf("   ✓ 动态间隔调整\n");
    printf("   ✓ 多种调整策略\n");
    
    return 0;
}

int main() {
    return demo_ntp_client();
}

adjtimex 使用注意事项

系统要求：

内核版本: 需要支持adjtimex的Linux内核
权限要求: 调整时钟需要root权限或CAP_SYS_TIME能力
架构支持: 支持所有主流架构

时钟状态：

TIME_OK: 时钟同步正常
TIME_INS: 即将插入闰秒
TIME_DEL: 即将删除闰秒
TIME_OOP: 闰秒处理中
TIME_WAIT: 等待同步
TIME_ERROR: 时钟错误

状态标志：

STA_PLL: 启用相位锁定环
STA_UNSYNC: 时钟未同步
STA_FREQHOLD: 频率保持
STA_PPSSIGNAL: PPS信号有效
STA_PPSJITTER: PPS抖动过大
STA_PPSWANDER: PPS频率漂移过大
STA_PPSERROR: PPS错误

调整模式：

ADJ_OFFSET: 调整时钟偏移
ADJ_FREQUENCY: 调整时钟频率
ADJ_MAXERROR: 设置最大误差
ADJ_ESTERROR: 设置估算误差
ADJ_STATUS: 设置状态标志
ADJ_TIMECONST: 设置时间常数
ADJ_SETOFFSET: 设置时间偏移
ADJ_MICRO: 微调模式
ADJ_NANO: 纳秒模式
ADJ_TICK: 调整时钟滴答

错误处理：

EPERM: 权限不足
EINVAL: 参数无效
EFAULT: 指针无效
EACCES: 访问被拒绝
EPERM: 操作被禁止

性能考虑：

调整频率: 避免过于频繁的时钟调整
调整幅度: 控制每次调整的幅度
系统负载: 考虑调整对系统性能的影响
监控开销: 减少监控带来的开销

安全考虑：

权限验证: 确保有适当的权限进行调整
参数验证: 验证所有输入参数的有效性
错误恢复: 准备适当的错误恢复机制
审计日志: 记录所有时钟调整操作

最佳实践：

渐进调整: 优先使用渐进调整而非步进调整
权限检查: 执行前检查是否具有足够权限
状态监控: 持续监控时钟状态和性能
错误处理: 妥善处理各种错误情况
日志记录: 记录所有重要的操作和状态变化

timex结构体详解

struct timex 结构：

struct timex {
    unsigned int modes;     // 操作模式
    long offset;            // 时钟偏移(微秒)
    long freq;              // 频率调整(系统单位)
    long maxerror;          // 最大误差(毫秒)
    long esterror;          // 估算误差(毫秒)
    int status;             // 状态标志
    long constant;          // PLL时间常数
    long precision;         // 时钟精度(毫秒)
    long tolerance;         // 频率容忍度(ppm)
    struct timeval time;    // 当前时间
    long tick;              // 时钟滴答值
    long ppsfreq;           // PPS频率(系统单位)
    long jitter;            // PPS抖动(纳秒)
    int shift;              // PPS间隔宽度
    long stabil;             // PPS频率稳定度
    long jitcnt;            // PPS抖动计数
    long calcnt;            // PPS校准计数
    long errcnt;            // PPS错误计数
    long stbcnt;            // PPS稳定计数
    int tai;                // TAI偏移
    int state;              // 时钟状态
    int :32; int :32; int :32; int :32;
};

常见使用场景

1. NTP客户端：

// 调整时钟偏移
struct timex tx;
tx.modes = ADJ_OFFSET;
tx.offset = measured_offset_us;
adjtimex(&tx);

2. 系统时钟监控：

// 监控时钟状态
struct timex tx;
tx.modes = 0;  // 查询模式
int state = adjtimex(&tx);

3. 高精度时间服务：

// 频率调整
struct timex tx;
tx.modes = ADJ_FREQUENCY;
tx.freq = ppm * 65536;  // 转换为系统单位
adjtimex(&tx);

总结

adjtimex 是Linux系统中强大的时间管理函数，提供了：

精确控制: 微秒级时钟偏移调整
频率管理: PPM级频率控制
状态监控: 实时时钟状态查询
错误处理: 完善的错误处理机制

通过合理使用 adjtimex，可以构建高精度的时间同步系统。在实际应用中，需要注意权限要求、错误处理和性能优化等关键问题。

发表在 linux文章 | 留下评论

BPF系统调用及示例

发表于2025-08-05由麦芽爸

这次我们介绍 bpf 函数，它是 Linux 内核中 **Berkeley Packet Filter **(BPF) 子系统的用户态接口。

1. 函数介绍

bpf 是一个功能极其强大的 Linux 系统调用（内核版本 >= 3.18，但许多高级特性需要更新的内核），它提供了一种在内核空间安全、高效地运行用户定义程序的机制。

你可以把 BPF 想象成一个内核里的虚拟机：

你（用户态程序）可以编写一段用BPF 指令集编写的“小程序”（eBPF 程序）。
你将这段程序加载到内核中。
内核会验证这段程序的安全性（确保它不会导致死循环、不会访问非法内存等）。
如果验证通过，内核会即时编译 (JIT) 这段程序为机器码，并将其附加到特定的内核钩子（hook points）上。
当内核执行到这些钩子时（例如，收到网络包、进行系统调用、跟踪函数调用），就会执行你加载的 BPF 程序。
BPF 程序可以进行过滤、修改、收集信息（遥测）、路由等操作。

主要用途:

网络编程: 高性能数据包过滤（tcpdump）、流量整形、负载均衡、XDP（eXpress Data Path）超高速网络处理。
系统监控和追踪: 跟踪内核函数、用户态函数、系统调用，收集性能指标（如 perf）、调试信息。
安全: 实施安全策略、沙箱、审计。
性能分析: 无侵入式地分析应用程序和内核性能瓶颈。

2. 函数原型

#include <linux/bpf.h> // 必需，包含 BPF 相关常量和结构体

long bpf(int cmd, union bpf_attr *attr, unsigned int size);

3. 功能

统一接口: bpf 系统调用是操作 eBPF 子系统的统一入口点。几乎所有与 eBPF 相关的操作（创建、加载、附加、查询、删除等）都通过这个单一的系统调用来完成。
多用途: 根据 cmd 参数的不同，bpf 可以执行完全不同的操作。

4. 参数

int cmd: 指定要执行的具体 BPF 操作。这是一个枚举值（定义在 <linux/bpf.h> 中）。常见的命令包括：
- BPF_MAP_CREATE: 创建一个 BPF 映射（Map）。映射是 BPF 程序和用户态程序之间共享数据的高效机制。
- BPF_PROG_LOAD: 将一个 BPF 程序加载到内核中。
- BPF_OBJ_PIN / BPF_OBJ_GET: 将 BPF 对象（程序或映射）固定到文件系统路径或从路径获取。
- BPF_PROG_ATTACH / BPF_PROG_DETACH: 将已加载的 BPF 程序附加到或从特定的挂钩点（如 cgroup、网络设备）分离。
- BPF_PROG_RUN / BPF_PROG_TEST_RUN: （测试）运行 BPF 程序。
- BPF_MAP_LOOKUP_ELEM / BPF_MAP_UPDATE_ELEM / BPF_MAP_DELETE_ELEM: 对 BPF 映射进行查找、更新、删除元素操作。
- BPF_PROG_GET_NEXT_ID / BPF_PROG_GET_FD_BY_ID: 枚举和通过 ID 获取 BPF 程序。
- BPF_MAP_GET_NEXT_ID / BPF_MAP_GET_FD_BY_ID: 枚举和通过 ID 获取 BPF 映射。
- … 还有很多其他命令 …
union bpf_attr *attr: 这是一个指向 union bpf_attr 结构体的指针。这个联合体包含了执行 cmd 指定操作所需的所有可能参数。根据 cmd 的不同，bpf 系统调用会从这个联合体中读取或写入特定的成员。
- 例如，对于 BPF_MAP_CREATE，它会读取 attr->map_type, attr->key_size, attr->value_size, attr->max_entries 等成员。
- 对于 BPF_PROG_LOAD，它会读取 attr->prog_type, attr->insn_cnt, attr->insns, attr->license 等成员。
unsigned int size: 指定 attr 指向的 union bpf_attr 结构体的大小（以字节为单位）。内核使用这个大小来进行兼容性检查和内存访问边界控制。

5. `union bpf_attr` 结构体

union bpf_attr 是一个巨大的联合体，包含了所有 BPF 操作可能需要的参数。它的定义非常庞大，这里只列举几个关键成员以说明其结构：

union bpf_attr {
    struct { /* anonymous struct for BPF_MAP_CREATE */
        __u32   map_type;    // 映射类型 (BPF_MAP_TYPE_*)
        __u32   key_size;    // 键大小
        __u32   value_size;  // 值大小
        __u32   max_entries; // 最大元素个数
        __u32   map_flags;   // 标志位
        __u32   inner_map_fd; // 用于 array/hash of maps
        __u32   numa_node;   // NUMA 节点
        char    map_name[BPF_OBJ_NAME_LEN]; // 映射名称
        __u32   map_ifindex; // 网络接口索引
        // ... 更多字段 ...
    }; // BPF_MAP_CREATE 使用这些字段

    struct { /* anonymous struct for BPF_PROG_LOAD */
        __u32   prog_type;     // 程序类型 (BPF_PROG_TYPE_*)
        __u32   insn_cnt;      // 指令数量
        __aligned_u64 insns;   // 指向指令数组的用户态指针
        __aligned_u64 license;  // 指向许可证字符串的用户态指针 ("GPL")
        __u32   log_level;     // 日志级别
        __u32   log_size;      // 日志缓冲区大小
        __aligned_u64 log_buf; // 指向日志缓冲区的用户态指针
        __u32   kern_version;  // 内核版本 (用于追踪程序)
        __u32   prog_flags;   // 程序标志
        char    prog_name[BPF_OBJ_NAME_LEN]; // 程序名称
        __u32   prog_ifindex;  // 网络接口索引
        // ... 更多字段 ...
    }; // BPF_PROG_LOAD 使用这些字段

    // ... 还有很多其他匿名结构体，对应不同的 cmd ...
};

6. 返回值

成功时: 返回值取决于具体的 cmd。
- 对于 BPF_MAP_CREATE, BPF_PROG_LOAD 等创建操作：通常返回一个新的文件描述符（fd），用于引用新创建的 BPF 映射或程序。
- 对于 BPF_MAP_LOOKUP_ELEM 等查询操作：可能返回 0 表示成功。
- 对于 BPF_PROG_ATTACH 等操作：可能返回 0 表示成功。
失败时: 返回 -1，并设置全局变量 errno 来指示具体的错误原因（例如 EINVAL 参数无效，EACCES 权限不足，ENOMEM 内存不足，E2BIG 程序太大或映射太大，EPERM 操作不被允许等）。

7. 相似函数，或关联函数

libbpf: 一个 C 库，提供了对 bpf 系统调用的高级封装，简化了 eBPF 程序的加载、映射操作和附加过程。这是编写 eBPF 应用程序的推荐方式。
bpftool: 一个命令行工具，用于检查、调试和操作 eBPF 程序和映射。它本身就是 bpf 系统调用的使用者。
LLVM/Clang: 用于将 C 语言编写的 eBPF 程序编译成 BPF 字节码。
perf: 可以与 eBPF 结合使用进行性能分析。
bcc / bpftrace: 更高级别的工具和库，进一步简化了 eBPF 的使用，允许用 Python 或特定领域语言编写脚本。

8. 示例代码

重要提示: 直接使用 bpf 系统调用编写 eBPF 程序非常复杂，涉及大量的底层细节、内存管理和联合体操作。下面的示例将展示一个极其简化的、概念性的 C 代码，旨在说明 bpf 系统调用的调用方式和参数结构。实际的 eBPF 开发通常使用 libbpf 库。

示例 1：概念性地使用 `bpf` 系统调用

这个例子展示了如何直接调用 bpf 系统调用（通过 syscall）来创建一个简单的 BPF 映射。

// bpf_conceptual.c
// 注意：这是一个非常简化的概念性示例，不包含实际的 eBPF 程序加载。
// 实际使用需要 libbpf 或 LLVM/Clang 工具链。
#define _GNU_SOURCE
#include <linux/bpf.h> // 包含 BPF 相关定义
#include <sys/syscall.h> // syscall
#include <unistd.h>     // close
#include <stdio.h>      // perror, printf
#include <stdlib.h>     // exit
#include <string.h>     // memset
#include <errno.h>      // errno

// 简化包装 syscall
static inline long sys_bpf(int cmd, union bpf_attr *attr, unsigned int size) {
    return syscall(__NR_bpf, cmd, attr, size);
}

int main() {
    union bpf_attr attr;
    int map_fd;

    printf("Using bpf syscall directly to create a map...\n");

    // 1. 清零 attr 联合体
    memset(&attr, 0, sizeof(attr));

    // 2. 填充 BPF_MAP_CREATE 所需的参数
    attr.map_type = BPF_MAP_TYPE_ARRAY; // 创建一个数组类型的映射
    attr.key_size = sizeof(int);        // 键是 int 类型 (4 bytes)
    attr.value_size = sizeof(long long); // 值是 long long 类型 (8 bytes)
    attr.max_entries = 10;              // 数组大小为 10
    // attr.map_flags = 0;              // 可以设置标志，这里用默认值
    snprintf(attr.map_name, sizeof(attr.map_name), "my_array_map"); // 设置映射名称

    printf("Creating BPF_MAP_TYPE_ARRAY with:\n");
    printf("  map_type: %u (BPF_MAP_TYPE_ARRAY)\n", attr.map_type);
    printf("  key_size: %u bytes\n", attr.key_size);
    printf("  value_size: %u bytes\n", attr.value_size);
    printf("  max_entries: %u\n", attr.max_entries);
    printf("  map_name: %s\n", attr.map_name);

    // 3. 调用 bpf 系统调用 (BPF_MAP_CREATE)
    printf("Calling bpf(BPF_MAP_CREATE, ...)\n");
    map_fd = sys_bpf(BPF_MAP_CREATE, &attr, sizeof(attr));
    if (map_fd < 0) {
        perror("bpf BPF_MAP_CREATE failed");
        if (errno == EPERM) {
            printf("Permission denied. You might need to run this as root or adjust capabilities.\n");
            printf("Try: sudo ./bpf_conceptual\n");
        }
        exit(EXIT_FAILURE);
    }

    printf("BPF map created successfully. File descriptor: %d\n", map_fd);

    // 4. (概念性) 使用 map_fd 进行后续操作
    // 例如，使用 BPF_MAP_UPDATE_ELEM 更新元素
    // union bpf_attr update_attr;
    // memset(&update_attr, 0, sizeof(update_attr));
    // update_attr.map_fd = map_fd;
    // int key = 5;
    // long long value = 1234567890LL;
    // update_attr.key = (unsigned long)&key;
    // update_attr.value = (unsigned long)&value;
    // update_attr.flags = BPF_ANY; // 如果存在则更新，否则创建
    // if (sys_bpf(BPF_MAP_UPDATE_ELEM, &update_attr, sizeof(update_attr)) == -1) {
    //     perror("bpf BPF_MAP_UPDATE_ELEM failed");
    // } else {
    //     printf("Successfully updated element at key %d to value %lld\n", key, value);
    // }

    // 5. 关闭映射文件描述符
    printf("Closing BPF map file descriptor...\n");
    if (close(map_fd) == -1) {
        perror("close BPF map fd failed");
    } else {
        printf("BPF map file descriptor closed.\n");
    }

    printf("Conceptual bpf syscall example completed.\n");
    return 0;
}

**代码解释 **(概念性):

定义 sys_bpf 包装 syscall(__NR_bpf, ...)，因为 glibc 可能没有直接包装 bpf。
声明 union bpf_attr attr 用于传递参数。
清零 attr 联合体，这是一个好习惯，确保未使用的字段为 0。
填充 attr:
- map_type = BPF_MAP_TYPE_ARRAY: 指定创建数组映射。
- key_size = sizeof(int): 键是 4 字节整数。
- value_size = sizeof(long long): 值是 8 字节长整数。
- max_entries = 10: 数组包含 10 个元素。
- snprintf(attr.map_name, ...): 设置映射的名称。
调用 sys_bpf:
- cmd = BPF_MAP_CREATE: 指定创建映射操作。
- &attr: 指向填充好的参数联合体。
- sizeof(attr): 联合体的大小。
检查返回值:
- 如果返回值 map_fd 是一个非负整数，表示成功，这个 map_fd 是新创建映射的文件描述符。
- 如果返回 -1，检查 errno。EPERM 表示权限不足，通常需要 root 权限。
打印成功信息和返回的文件描述符。
概念性操作: 注释掉了使用 BPF_MAP_UPDATE_ELEM 命令更新映射元素的代码。
使用 close(map_fd) 关闭映射文件描述符，释放资源。

示例 2：使用 `libbpf` 创建和使用 BPF 映射 (推荐方式)

这个例子展示了使用 libbpf 库（现代推荐方式）来创建和操作 BPF 映射。

// bpf_libbpf_example.c
// 编译: gcc -o bpf_libbpf_example bpf_libbpf_example.c -lbpf
// 注意：需要安装 libbpf-dev 包

/*
#ifndef _GNU_SOURCE
#define _GNU_SOURCE
#endif

#include <bpf/libbpf.h> // libbpf 库
#include <bpf/bpf.h>    // bpf_map_update_elem, bpf_map_lookup_elem 等辅助函数
#include <stdio.h>      // printf, perror
#include <stdlib.h>     // exit
#include <unistd.h>     // close (如果需要)

int main() {
    int map_fd = -1;
    int err;
    int key = 5;
    long long value = 9876543210LL;
    long long lookup_value;

    printf("Using libbpf to create and manipulate a BPF map...\n");

    // 1. 使用 libbpf 创建 BPF 映射
    struct bpf_map *map = bpf_map__new(BPF_MAP_TYPE_ARRAY, sizeof(int), sizeof(long long), 10, 0, "my_libbpf_array_map");
    if (!map) {
        fprintf(stderr, "Failed to create BPF map using libbpf.\n");
        exit(EXIT_FAILURE);
    }

    // 2. 获取映射的文件描述符
    map_fd = bpf_map__fd(map);
    if (map_fd < 0) {
        fprintf(stderr, "Failed to get map file descriptor.\n");
        bpf_map__destroy(map); // 清理
        exit(EXIT_FAILURE);
    }

    printf("BPF map created using libbpf. File descriptor: %d\n", map_fd);

    // 3. 使用 libbpf 辅助函数更新映射元素
    printf("Updating element at key %d with value %lld...\n", key, value);
    err = bpf_map_update_elem(map_fd, &key, &value, BPF_ANY);
    if (err) {
        perror("bpf_map_update_elem failed");
        bpf_map__destroy(map);
        exit(EXIT_FAILURE);
    }
    printf("Element updated successfully.\n");

    // 4. 使用 libbpf 辅助函数查找映射元素
    printf("Looking up element at key %d...\n", key);
    err = bpf_map_lookup_elem(map_fd, &key, &lookup_value);
    if (err) {
        perror("bpf_map_lookup_elem failed");
        bpf_map__destroy(map);
        exit(EXIT_FAILURE);
    }
    printf("Found element at key %d with value %lld.\n", key, lookup_value);

    // 5. 清理资源
    printf("Destroying BPF map...\n");
    bpf_map__destroy(map); // 这会关闭 fd 并释放资源
    printf("BPF map destroyed.\n");

    printf("libbpf example completed.\n");
    return 0;
}
*/
// 由于 libbpf 依赖和编译可能较为复杂，此处提供伪代码框架。
// 实际使用请参考 libbpf 文档和示例。

**代码解释 **(概念性/伪代码):

包含 libbpf 库的头文件。
创建映射:
- 调用 libbpf 提供的高级函数 bpf_map__new 来创建映射。
- 这比直接使用 bpf 系统调用简单得多，库会处理联合体的填充和系统调用。
获取文件描述符:
- 调用 bpf_map__fd 获取映射的文件描述符，用于后续操作。
操作映射:
- 使用 libbpf 提供的辅助函数 bpf_map_update_elem 和 bpf_map_lookup_elem 来更新和查找映射中的元素。
- 这些函数内部会调用 bpf 系统调用（如 BPF_MAP_UPDATE_ELEM）。
清理:
- 调用 bpf_map__destroy 来销毁映射并释放所有相关资源（包括关闭文件描述符）。

重要提示与注意事项:

内核版本: eBPF 是一个快速发展的领域，新特性和功能不断加入。确保你的 Linux 内核版本足够新以支持你需要的功能。
权限: 使用 bpf 系统调用通常需要特殊权限，如 CAP_SYS_ADMIN 或 CAP_BPF（较新内核）。在生产环境中，应遵循最小权限原则。
libbpf 是推荐方式: 直接使用 bpf 系统调用非常复杂且容易出错。libbpf 库极大地简化了开发流程，提供了更好的可移植性和错误处理。
程序加载: 加载 eBPF 程序（BPF_PROG_LOAD）比创建映射复杂得多，需要预先编译好的 BPF 字节码，并处理验证、日志等。
安全性: eBPF 程序在加载到内核前会经过严格的验证器（verifier）检查，确保其安全性（无无限循环、无非法内存访问等）。这是 eBPF 能够安全运行在内核中的关键。
性能: eBPF 程序在内核中运行，并且通常会被 JIT 编译成高效的机器码，性能非常高。
调试: bpftool 和 bpf_trace_printk 是调试 eBPF 程序的常用工具。

总结:

bpf 系统调用是 Linux eBPF 子系统的核心接口，它提供了一种强大、安全且高效的方式让用户态程序在内核中执行自定义逻辑。虽然直接使用它非常底层和复杂，但通过 libbpf 等高级库，开发者可以更轻松地利用 eBPF 的强大功能来构建网络、安全、监控和性能分析等领域的前沿应用。理解其基本概念和工作原理对于现代 Linux 系统程序员来说至关重要。

发表在 linux文章 | 留下评论

Linux定时器管理-深入解析timer_*函数

发表于2025-08-05由麦芽爸

linux定时器管理timer_* 函数详解

掌握Linux定时器管理，深入解析timer_*系列函数用法与示例，助力开发者高效控制任务调度，提升程序性能。

1. 函数介绍

timer_ 函数系列*是Linux系统中用于定时器管理的一组函数，它们提供了精确的时间控制和定时功能。可以把timer_*函数想象成一个”精密时钟系统”，允许你设置各种类型的定时器，包括一次性定时器、周期性定时器、以及高精度定时器。

这些函数基于POSIX定时器标准，提供了比传统alarm()函数更强大和灵活的功能。timer_*函数可以：

创建和管理多个定时器
设置一次性或周期性定时
指定定时器到期时的行为（发送信号或执行回调）
精确控制定时器的时间间隔
查询和修改定时器状态

使用场景：

网络服务器中的超时控制
实时系统中的周期性任务
游戏开发中的帧率控制
系统监控和定时检查
多媒体应用中的同步控制

2. 函数原型

#include <time.h>
#include <signal.h>

// 创建定时器
int timer_create(clockid_t clockid, struct sigevent *sevp, timer_t *timerid);

// 启动/修改定时器
int timer_settime(timer_t timerid, int flags,
                  const struct itimerspec *new_value,
                  struct itimerspec *old_value);

// 获取定时器时间
int timer_gettime(timer_t timerid, struct itimerspec *curr_value);

// 获取定时器超时次数
int timer_getoverrun(timer_t timerid);

// 删除定时器
int timer_delete(timer_t timerid);

3. 功能

timer_*函数系列提供了完整的定时器管理功能：

timer_create: 创建一个新的定时器，指定时钟源和到期通知方式
timer_settime: 启动、停止或修改定时器的定时参数
timer_gettime: 查询定时器的当前状态和剩余时间
timer_getoverrun: 获取定时器的超限运行次数（当定时器到期但未被处理时）
timer_delete: 删除和清理定时器资源

4. 参数

timer_create参数：

clockid: 时钟类型
- 类型：clockid_t
- 含义：指定定时器使用的时钟源
- 常用值：
  - CLOCK_REALTIME：系统实时时间
  - CLOCK_MONOTONIC：单调时钟（不会受系统时间调整影响）
  - CLOCK_PROCESS_CPUTIME_ID：进程CPU时间
  - CLOCK_THREAD_CPUTIME_ID：线程CPU时间
sevp: 信号事件结构
- 类型：struct sigevent*
- 含义：指定定时器到期时的通知方式
- NULL表示使用默认的SIGALRM信号
timerid: 定时器ID
- 类型：timer_t*
- 含义：返回创建的定时器标识符

timer_settime参数：

timerid: 定时器ID
- 类型：timer_t
- 含义：要操作的定时器标识符
flags: 操作标志
- 类型：int
- 含义：控制定时器行为的标志
- 常用值：
  - 0：相对时间
  - TIMER_ABSTIME：绝对时间
new_value: 新的定时器设置
- 类型：const struct itimerspec*
- 含义：指定定时器的新参数
old_value: 旧的定时器设置
- 类型：struct itimerspec*
- 含义：返回定时器之前的设置（可为NULL）

5. 返回值

成功: 返回0
失败: 返回-1，并设置errno错误码
- EINVAL：参数无效
- ENOMEM：内存不足
- EPERM：权限不足
- EAGAIN：资源暂时不可用

6. 相似函数或关联函数

alarm(): 传统的一次性定时器函数
setitimer(): 更灵活的间隔定时器函数
sleep()/usleep(): 简单的延迟函数
clock_gettime(): 获取时钟时间
nanosleep(): 高精度睡眠函数
signal()/sigaction(): 信号处理函数

7. 示例代码

示例1：基础timer使用 – 简单定时器

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <time.h>
#include <signal.h>
#include <string.h>
#include <errno.h>

// 定时器信号处理函数
void timer_handler(int sig, siginfo_t *si, void *uc) {
    timer_t *tidp = si->si_value.sival_ptr;
    printf("[%ld] 定时器到期! 定时器ID: %p\n", time(NULL), (void*)*tidp);
}

int main() {
    timer_t timerid;
    struct sigevent sev;
    struct itimerspec its;
    struct sigaction sa;
    
    printf("=== 基础定时器示例 ===\n");
    printf("当前时间: %ld\n", time(NULL));
    
    // 设置信号处理函数
    sa.sa_flags = SA_SIGINFO;
    sa.sa_sigaction = timer_handler;
    sigemptyset(&sa.sa_mask);
    if (sigaction(SIGRTMIN, &sa, NULL) == -1) {
        perror("sigaction");
        exit(EXIT_FAILURE);
    }
    
    // 创建定时器
    sev.sigev_notify = SIGEV_SIGNAL;
    sev.sigev_signo = SIGRTMIN;
    sev.sigev_value.sival_ptr = &timerid;
    if (timer_create(CLOCK_REALTIME, &sev, &timerid) == -1) {
        perror("timer_create");
        exit(EXIT_FAILURE);
    }
    
    printf("定时器创建成功，ID: %p\n", (void*)timerid);
    
    // 设置定时器：5秒后开始，每2秒触发一次
    its.it_value.tv_sec = 5;     // 初始延迟5秒
    its.it_value.tv_nsec = 0;
    its.it_interval.tv_sec = 2;  // 周期间隔2秒
    its.it_interval.tv_nsec = 0;
    
    if (timer_settime(timerid, 0, &its, NULL) == -1) {
        perror("timer_settime");
        exit(EXIT_FAILURE);
    }
    
    printf("定时器已启动：5秒后首次触发，之后每2秒触发一次\n");
    printf("程序将运行20秒...\n\n");
    
    // 等待定时器触发
    sleep(20);
    
    // 停止定时器
    its.it_value.tv_sec = 0;
    its.it_value.tv_nsec = 0;
    its.it_interval.tv_sec = 0;
    its.it_interval.tv_nsec = 0;
    
    if (timer_settime(timerid, 0, &its, NULL) == -1) {
        perror("timer_settime");
        exit(EXIT_FAILURE);
    }
    
    printf("\n定时器已停止\n");
    
    // 删除定时器
    if (timer_delete(timerid) == -1) {
        perror("timer_delete");
        exit(EXIT_FAILURE);
    }
    
    printf("定时器已删除\n");
    
    return 0;
}

示例2：多种定时器类型和时钟源

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <time.h>
#include <signal.h>
#include <string.h>

#define NUM_TIMERS 4

timer_t timers[NUM_TIMERS];
int timer_counts[NUM_TIMERS] = {0};

// 定时器信号处理函数
void timer_handler(int sig, siginfo_t *si, void *uc) {
    int timer_index = si->si_value.sival_int;
    
    timer_counts[timer_index]++;
    printf("[%ld] 定时器 %d 到期第 %d 次\n", 
           time(NULL), timer_index, timer_counts[timer_index]);
    
    // 演示timer_gettime
    struct itimerspec curr_value;
    if (timer_gettime(timers[timer_index], &curr_value) == 0) {
        printf("  剩余时间: %ld.%09ld 秒\n", 
               curr_value.it_value.tv_sec, curr_value.it_value.tv_nsec);
    }
    
    // 演示timer_getoverrun
    int overrun = timer_getoverrun(timers[timer_index]);
    if (overrun > 0) {
        printf("  超限运行: %d 次\n", overrun);
    }
}

int main() {
    struct sigaction sa;
    struct sigevent sev;
    struct itimerspec its;
    int i;
    
    printf("=== 多种定时器类型示例 ===\n");
    printf("当前时间: %ld\n\n", time(NULL));
    
    // 设置信号处理函数
    sa.sa_flags = SA_SIGINFO;
    sa.sa_sigaction = timer_handler;
    sigemptyset(&sa.sa_mask);
    if (sigaction(SIGRTMIN, &sa, NULL) == -1) {
        perror("sigaction");
        exit(EXIT_FAILURE);
    }
    
    // 创建不同类型的定时器
    for (i = 0; i < NUM_TIMERS; i++) {
        // 设置信号事件
        sev.sigev_notify = SIGEV_SIGNAL;
        sev.sigev_signo = SIGRTMIN;
        sev.sigev_value.sival_int = i;
        
        clockid_t clock_type;
        const char* clock_name;
        
        switch(i) {
            case 0:
                clock_type = CLOCK_REALTIME;
                clock_name = "CLOCK_REALTIME";
                break;
            case 1:
                clock_type = CLOCK_MONOTONIC;
                clock_name = "CLOCK_MONOTONIC";
                break;
            case 2:
                clock_type = CLOCK_PROCESS_CPUTIME_ID;
                clock_name = "CLOCK_PROCESS_CPUTIME_ID";
                break;
            case 3:
                clock_type = CLOCK_THREAD_CPUTIME_ID;
                clock_name = "CLOCK_THREAD_CPUTIME_ID";
                break;
            default:
                clock_type = CLOCK_REALTIME;
                clock_name = "DEFAULT";
                break;
        }
        
        // 创建定时器
        if (timer_create(clock_type, &sev, &timers[i]) == -1) {
            printf("创建定时器 %d (%s) 失败: %s\n", i, clock_name, strerror(errno));
            continue;
        }
        
        printf("定时器 %d (%s) 创建成功\n", i, clock_name);
        
        // 设置不同的定时参数
        switch(i) {
            case 0: // 一次性定时器
                its.it_value.tv_sec = 3 + i;     // 3秒后触发
                its.it_value.tv_nsec = 0;
                its.it_interval.tv_sec = 0;      // 不重复
                its.it_interval.tv_nsec = 0;
                printf("  设置为一次性定时器，%d秒后触发\n", 3 + i);
                break;
                
            case 1: // 短周期定时器
                its.it_value.tv_sec = 2;         // 2秒后首次触发
                its.it_value.tv_nsec = 0;
                its.it_interval.tv_sec = 1;      // 每1秒重复
                its.it_interval.tv_nsec = 0;
                printf("  设置为周期性定时器，2秒后开始，每1秒触发\n");
                break;
                
            case 2: // 长周期定时器
                its.it_value.tv_sec = 5;         // 5秒后首次触发
                its.it_value.tv_nsec = 500000000; // 500毫秒
                its.it_interval.tv_sec = 3;      // 每3秒重复
                its.it_interval.tv_nsec = 0;
                printf("  设置为周期性定时器，5.5秒后开始，每3秒触发\n");
                break;
                
            case 3: // 快速定时器
                its.it_value.tv_sec = 1;         // 1秒后首次触发
                its.it_value.tv_nsec = 0;
                its.it_interval.tv_sec = 0;      // 每0.5秒重复
                its.it_interval.tv_nsec = 500000000; // 500毫秒
                printf("  设置为周期性定时器，1秒后开始，每0.5秒触发\n");
                break;
        }
        
        // 启动定时器
        if (timer_settime(timers[i], 0, &its, NULL) == -1) {
            perror("timer_settime");
            exit(EXIT_FAILURE);
        }
    }
    
    printf("\n所有定时器已启动，程序运行20秒...\n\n");
    
    // 运行一段时间观察定时器效果
    sleep(20);
    
    // 停止所有定时器
    printf("\n=== 停止所有定时器 ===\n");
    its.it_value.tv_sec = 0;
    its.it_value.tv_nsec = 0;
    its.it_interval.tv_sec = 0;
    its.it_interval.tv_nsec = 0;
    
    for (i = 0; i < NUM_TIMERS; i++) {
        if (timer_settime(timers[i], 0, &its, NULL) == -1) {
            printf("停止定时器 %d 失败\n", i);
        } else {
            printf("定时器 %d 已停止\n", i);
        }
    }
    
    // 删除所有定时器
    printf("\n=== 删除所有定时器 ===\n");
    for (i = 0; i < NUM_TIMERS; i++) {
        if (timer_delete(timers[i]) == -1) {
            printf("删除定时器 %d 失败\n", i);
        } else {
            printf("定时器 %d 已删除\n", i);
        }
    }
    
    // 显示统计信息
    printf("\n=== 定时器触发统计 ===\n");
    for (i = 0; i < NUM_TIMERS; i++) {
        printf("定时器 %d 触发次数: %d\n", i, timer_counts[i]);
    }
    
    return 0;
}

示例3：高精度定时器和绝对时间定时

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <time.h>
#include <signal.h>
#include <string.h>

timer_t timerid;
int trigger_count = 0;

// 定时器信号处理函数
void timer_handler(int sig, siginfo_t *si, void *uc) {
    trigger_count++;
    
    struct timespec current_time;
    clock_gettime(CLOCK_REALTIME, &current_time);
    
    printf("[%ld.%09ld] 定时器第 %d 次触发\n", 
           current_time.tv_sec, current_time.tv_nsec, trigger_count);
}

// 获取当前时间字符串
void print_current_time() {
    struct timespec ts;
    clock_gettime(CLOCK_REALTIME, &ts);
    printf("当前时间: %ld.%09ld\n", ts.tv_sec, ts.tv_nsec);
}

int main() {
    struct sigaction sa;
    struct sigevent sev;
    struct itimerspec its;
    struct timespec current_time;
    
    printf("=== 高精度定时器和绝对时间示例 ===\n");
    print_current_time();
    printf("\n");
    
    // 设置信号处理函数
    sa.sa_flags = SA_SIGINFO;
    sa.sa_sigaction = timer_handler;
    sigemptyset(&sa.sa_mask);
    if (sigaction(SIGRTMIN, &sa, NULL) == -1) {
        perror("sigaction");
        exit(EXIT_FAILURE);
    }
    
    // 创建定时器
    sev.sigev_notify = SIGEV_SIGNAL;
    sev.sigev_signo = SIGRTMIN;
    sev.sigev_value.sival_ptr = &timerid;
    
    if (timer_create(CLOCK_REALTIME, &sev, &timerid) == -1) {
        perror("timer_create");
        exit(EXIT_FAILURE);
    }
    
    printf("高精度定时器创建成功\n");
    
    // 示例1: 相对时间定时器（高精度）
    printf("\n--- 相对时间定时器 ---\n");
    print_current_time();
    
    // 设置1.5秒的延迟定时器
    its.it_value.tv_sec = 1;
    its.it_value.tv_nsec = 500000000;  // 500毫秒
    its.it_interval.tv_sec = 0;
    its.it_interval.tv_nsec = 0;
    
    if (timer_settime(timerid, 0, &its, NULL) == -1) {
        perror("timer_settime");
        exit(EXIT_FAILURE);
    }
    
    printf("设置1.5秒延迟定时器...\n");
    sleep(3);  // 等待定时器触发
    
    // 示例2: 周期性高精度定时器
    printf("\n--- 周期性高精度定时器 ---\n");
    print_current_time();
    
    // 设置周期性定时器：0.1秒后开始，每0.2秒触发
    its.it_value.tv_sec = 0;
    its.it_value.tv_nsec = 100000000;   // 100毫秒
    its.it_interval.tv_sec = 0;
    its.it_interval.tv_nsec = 200000000; // 200毫秒
    
    if (timer_settime(timerid, 0, &its, NULL) == -1) {
        perror("timer_settime");
        exit(EXIT_FAILURE);
    }
    
    printf("设置周期性定时器：100毫秒后开始，每200毫秒触发\n");
    printf("运行5秒观察效果...\n\n");
    
    sleep(5);
    
    // 停止定时器
    its.it_value.tv_sec = 0;
    its.it_value.tv_nsec = 0;
    its.it_interval.tv_sec = 0;
    its.it_interval.tv_nsec = 0;
    
    if (timer_settime(timerid, 0, &its, NULL) == -1) {
        perror("timer_settime");
        exit(EXIT_FAILURE);
    }
    
    printf("\n周期性定时器已停止\n");
    printf("触发次数: %d\n", trigger_count);
    
    // 示例3: 绝对时间定时器
    printf("\n--- 绝对时间定时器 ---\n");
    trigger_count = 0;
    
    // 获取当前时间并设置5秒后的绝对时间
    if (clock_gettime(CLOCK_REALTIME, &current_time) == -1) {
        perror("clock_gettime");
        exit(EXIT_FAILURE);
    }
    
    print_current_time();
    
    // 设置绝对时间：当前时间+3秒
    struct itimerspec abs_its;
    abs_its.it_value.tv_sec = current_time.tv_sec + 3;
    abs_its.it_value.tv_nsec = current_time.tv_nsec;
    abs_its.it_interval.tv_sec = 0;
    abs_its.it_interval.tv_nsec = 0;
    
    printf("设置绝对时间定时器：3秒后触发\n");
    
    if (timer_settime(timerid, TIMER_ABSTIME, &abs_its, NULL) == -1) {
        perror("timer_settime (绝对时间)");
        exit(EXIT_FAILURE);
    }
    
    sleep(5);  // 等待定时器触发
    
    // 示例4: 定时器状态查询
    printf("\n--- 定时器状态查询 ---\n");
    
    // 重新设置一个周期性定时器用于测试
    its.it_value.tv_sec = 1;
    its.it_value.tv_nsec = 0;
    its.it_interval.tv_sec = 2;
    its.it_interval.tv_nsec = 0;
    
    if (timer_settime(timerid, 0, &its, NULL) == -1) {
        perror("timer_settime");
        exit(EXIT_FAILURE);
    }
    
    printf("设置新的周期性定时器：1秒后开始，每2秒触发\n");
    
    // 查询定时器状态
    sleep(1);  // 等待首次触发后
    
    struct itimerspec query_its;
    if (timer_gettime(timerid, &query_its) == 0) {
        printf("定时器状态查询结果:\n");
        printf("  到期间隔: %ld.%09ld 秒\n", 
               query_its.it_interval.tv_sec, query_its.it_interval.tv_nsec);
        printf("  剩余时间: %ld.%09ld 秒\n", 
               query_its.it_value.tv_sec, query_its.it_value.tv_nsec);
    }
    
    // 演示timer_getoverrun
    printf("定时器超限运行测试（快速触发）:\n");
    sleep(6);
    
    int overrun = timer_getoverrun(timerid);
    printf("超限运行次数: %d\n", overrun);
    
    // 清理
    its.it_value.tv_sec = 0;
    its.it_value.tv_nsec = 0;
    its.it_interval.tv_sec = 0;
    its.it_interval.tv_nsec = 0;
    timer_settime(timerid, 0, &its, NULL);
    timer_delete(timerid);
    
    printf("\n所有测试完成\n");
    
    return 0;
}

示例4：定时器在实际应用中的使用

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <time.h>
#include <signal.h>
#include <string.h>
#include <pthread.h>

#define MAX_TASKS 10
#define HEARTBEAT_INTERVAL 5

// 任务结构体
typedef struct {
    int id;
    char name[50];
    int interval_seconds;
    time_t last_run;
    int run_count;
} task_t;

task_t tasks[MAX_TASKS];
int task_count = 0;
timer_t heartbeat_timer;
timer_t task_timers[MAX_TASKS];
pthread_mutex_t task_mutex = PTHREAD_MUTEX_INITIALIZER;

// 添加任务
int add_task(int id, const char* name, int interval) {
    if (task_count >= MAX_TASKS) {
        return -1;
    }
    
    tasks[task_count].id = id;
    strncpy(tasks[task_count].name, name, sizeof(tasks[task_count].name) - 1);
    tasks[task_count].interval_seconds = interval;
    tasks[task_count].last_run = 0;
    tasks[task_count].run_count = 0;
    
    return task_count++;
}

// 任务执行函数
void execute_task(int task_index) {
    pthread_mutex_lock(&task_mutex);
    
    time_t current_time = time(NULL);
    tasks[task_index].last_run = current_time;
    tasks[task_index].run_count++;
    
    printf("[%ld] 执行任务 %d (%s): 第 %d 次执行\n", 
           current_time, 
           tasks[task_index].id, 
           tasks[task_index].name, 
           tasks[task_index].run_count);
    
    pthread_mutex_unlock(&task_mutex);
}

// 任务定时器处理函数
void task_timer_handler(int sig, siginfo_t *si, void *uc) {
    int task_index = si->si_value.sival_int;
    execute_task(task_index);
}

// 心跳定时器处理函数
void heartbeat_handler(int sig, siginfo_t *si, void *uc) {
    static int heartbeat_count = 0;
    heartbeat_count++;
    
    printf("[%ld] 系统心跳 #%d\n", time(NULL), heartbeat_count);
    
    // 显示所有任务状态
    pthread_mutex_lock(&task_mutex);
    printf("  任务状态:\n");
    for (int i = 0; i < task_count; i++) {
        printf("    %s: 执行%d次, 最后执行: %s", 
               tasks[i].name, tasks[i].run_count,
               tasks[i].last_run ? ctime(&tasks[i].last_run) : "从未执行\n");
        if (tasks[i].last_run) {
            // 移除ctime返回的换行符
            char* newline = strchr(ctime(&tasks[i].last_run), '\n');
            if (newline) *newline = '\0';
            printf("%s\n", ctime(&tasks[i].last_run));
        }
    }
    pthread_mutex_unlock(&task_mutex);
}

// 初始化定时器系统
int init_timer_system() {
    struct sigaction sa;
    
    // 设置任务定时器信号处理
    sa.sa_flags = SA_SIGINFO;
    sa.sa_sigaction = task_timer_handler;
    sigemptyset(&sa.sa_mask);
    if (sigaction(SIGRTMIN, &sa, NULL) == -1) {
        perror("sigaction task");
        return -1;
    }
    
    // 设置心跳定时器信号处理
    sa.sa_sigaction = heartbeat_handler;
    if (sigaction(SIGRTMIN + 1, &sa, NULL) == -1) {
        perror("sigaction heartbeat");
        return -1;
    }
    
    return 0;
}

// 启动任务定时器
int start_task_timer(int task_index) {
    struct sigevent sev;
    struct itimerspec its;
    
    // 创建定时器
    sev.sigev_notify = SIGEV_SIGNAL;
    sev.sigev_signo = SIGRTMIN;
    sev.sigev_value.sival_int = task_index;
    
    if (timer_create(CLOCK_REALTIME, &sev, &task_timers[task_index]) == -1) {
        perror("timer_create task");
        return -1;
    }
    
    // 设置定时器
    its.it_value.tv_sec = tasks[task_index].interval_seconds;
    its.it_value.tv_nsec = 0;
    its.it_interval.tv_sec = tasks[task_index].interval_seconds;
    its.it_interval.tv_nsec = 0;
    
    if (timer_settime(task_timers[task_index], 0, &its, NULL) == -1) {
        perror("timer_settime task");
        return -1;
    }
    
    printf("任务定时器 %s 已启动，间隔 %d 秒\n", 
           tasks[task_index].name, tasks[task_index].interval_seconds);
    
    return 0;
}

// 启动心跳定时器
int start_heartbeat_timer() {
    struct sigevent sev;
    struct itimerspec its;
    
    // 创建心跳定时器
    sev.sigev_notify = SIGEV_SIGNAL;
    sev.sigev_signo = SIGRTMIN + 1;
    sev.sigev_value.sival_int = 0;
    
    if (timer_create(CLOCK_REALTIME, &sev, &heartbeat_timer) == -1) {
        perror("timer_create heartbeat");
        return -1;
    }
    
    // 设置心跳定时器（每5秒触发一次）
    its.it_value.tv_sec = HEARTBEAT_INTERVAL;
    its.it_value.tv_nsec = 0;
    its.it_interval.tv_sec = HEARTBEAT_INTERVAL;
    its.it_interval.tv_nsec = 0;
    
    if (timer_settime(heartbeat_timer, 0, &its, NULL) == -1) {
        perror("timer_settime heartbeat");
        return -1;
    }
    
    printf("心跳定时器已启动，间隔 %d 秒\n", HEARTBEAT_INTERVAL);
    
    return 0;
}

int main() {
    printf("=== 实际应用中的定时器系统 ===\n");
    printf("启动时间: %s", ctime(&(time_t){time(NULL)}));
    
    // 初始化定时器系统
    if (init_timer_system() == -1) {
        fprintf(stderr, "初始化定时器系统失败\n");
        exit(EXIT_FAILURE);
    }
    
    // 添加一些测试任务
    add_task(1, "数据备份", 10);
    add_task(2, "日志清理", 15);
    add_task(3, "状态检查", 5);
    add_task(4, "性能监控", 3);
    
    printf("已添加 %d 个任务\n", task_count);
    
    // 启动所有任务定时器
    for (int i = 0; i < task_count; i++) {
        if (start_task_timer(i) == -1) {
            fprintf(stderr, "启动任务定时器 %d 失败\n", i);
        }
    }
    
    // 启动心跳定时器
    if (start_heartbeat_timer() == -1) {
        fprintf(stderr, "启动心跳定时器失败\n");
    }
    
    printf("\n定时器系统运行中...\n");
    printf("程序将运行60秒，按Ctrl+C退出\n\n");
    
    // 运行主循环
    for (int i = 0; i < 60; i++) {
        sleep(1);
        
        // 每10秒显示一次统计信息
        if ((i + 1) % 10 == 0) {
            printf("[%ld] === 运行统计 ===\n", time(NULL));
            pthread_mutex_lock(&task_mutex);
            for (int j = 0; j < task_count; j++) {
                printf("  %s: 执行 %d 次\n", 
                       tasks[j].name, tasks[j].run_count);
            }
            pthread_mutex_unlock(&task_mutex);
            printf("==================\n\n");
        }
    }
    
    // 清理定时器
    printf("清理定时器...\n");
    
    // 停止并删除心跳定时器
    struct itimerspec stop_its = {{0, 0}, {0, 0}};
    timer_settime(heartbeat_timer, 0, &stop_its, NULL);
    timer_delete(heartbeat_timer);
    
    // 停止并删除所有任务定时器
    for (int i = 0; i < task_count; i++) {
        timer_settime(task_timers[i], 0, &stop_its, NULL);
        timer_delete(task_timers[i]);
    }
    
    printf("定时器系统已停止\n");
    
    // 显示最终统计
    printf("\n=== 最终统计 ===\n");
    pthread_mutex_lock(&task_mutex);
    for (int i = 0; i < task_count; i++) {
        printf("%s: 执行 %d 次\n", tasks[i].name, tasks[i].run_count);
    }
    pthread_mutex_unlock(&task_mutex);
    
    return 0;
}

编译和运行

# 编译示例1
gcc -o timer_example1 timer_example1.c -lrt
./timer_example1

# 编译示例2
gcc -o timer_example2 timer_example2.c -lrt
./timer_example2

# 编译示例3
gcc -o timer_example3 timer_example3.c -lrt
./timer_example3

# 编译示例4
gcc -o timer_example4 timer_example4.c -lrt -lpthread
./timer_example4

重要注意事项

链接库: 使用timer_*函数需要链接实时库(-lrt)
信号处理: 定时器通常通过信号通知，需要注意信号安全
精度限制: 实际精度受系统调度和负载影响
资源管理: 必须正确删除定时器以避免资源泄漏
线程安全: 在多线程环境中使用时需要适当的同步
错误处理: 所有timer_*函数都可能失败，必须检查返回值
时钟选择: 不同时钟源适用于不同的应用场景

通过这些示例，你可以理解timer_*函数在定时控制方面的强大功能，它们为Linux应用程序提供了精确、灵活的时间管理能力。

linux定时器管理timer_* 函数详解

getitimer系统调用及示例

发表在 linux文章 | 留下评论

shmget共享内存系统调用及示例

发表于2025-08-05由麦芽爸

shmget共享内存系统调用及示例

这次我们介绍 shmget, shmat, shmdt, 和 shmctl 这一组函数，它们构成了 System V 共享内存 (System V Shared Memory) IPC（进程间通信）机制的核心部分。

注意: 虽然 System V IPC 是历史悠久且广泛支持的标准，但在现代 Linux 编程中，POSIX 共享内存 (shm_open, mmap) 和 POSIX 消息队列 通常被认为是更现代、更可移植的选择。不过，理解 System V IPC 仍然很重要，因为它在许多遗留系统和特定场景中仍在使用。

1. 函数介绍

这四个函数共同工作，用于创建、访问、连接、分离和控制 System V 共享内存段。

shmget (Shared Memory Get): 创建一个新的共享内存段，或者获取一个已存在的共享内存段的标识符 (ID)。这个 ID 是后续操作该共享内存段的关键。
shmat (Shared Memory Attach): 将一个由 shmget 获取的共享内存段连接（或附加）到调用进程的虚拟地址空间中。连接成功后，进程就可以像访问普通内存一样访问这块共享内存。
shmdt (Shared Memory Detach): 将一个 previously attached 的共享内存段从调用进程的地址空间中分离（或去附加）。分离后，进程不能再通过之前返回的地址访问该共享内存段。
shmctl (Shared Memory Control): 对共享内存段执行控制操作，如获取其状态信息 (IPC_STAT)、设置其权限 (IPC_SET) 或销毁 (IPC_RMID) 该共享内存段。

你可以把共享内存想象成一个公共的“白板”：

shmget: 申请或找到一个特定的白板（通过 ID 标识）。
shmat: 把这个白板挂到你（进程）的墙上，这样你就能在上面写字或看别人写的字了。
shmdt: 把白板从你墙上取下来，你不能再访问它了（但白板本身还在，别人可能还在用）。
shmctl: 检查白板的状态（谁在用，什么时候创建的），修改谁能用它，或者直接把白板撕掉（销毁）。

2. 函数原型

#include <sys/types.h>  // 通常需要
#include <sys/ipc.h>    // 必需，包含 IPC_* 常量
#include <sys/shm.h>    // 必需，包含 shm* 函数和 shmid_ds 结构

// 获取共享内存段标识符
int shmget(key_t key, size_t size, int shmflg);

// 连接共享内存段到进程地址空间
void *shmat(int shmid, const void *shmaddr, int shmflg);

// 从进程地址空间分离共享内存段
int shmdt(const void *shmaddr);

// 控制共享内存段
int shmctl(int shmid, int cmd, struct shmid_ds *buf);

3. 功能

shmget: 根据一个键 (key) 创建或获取一个共享内存段，并返回其唯一标识符 (shmid)。
shmat: 将由 shmid 标识的共享内存段映射到调用进程的虚拟内存中，并返回映射后的虚拟地址。
shmdt: 将由 shmaddr 指定的共享内存段从调用进程的地址空间中断开连接。
shmctl: 根据 cmd 命令对由 shmid 标识的共享内存段执行各种控制操作。

4. 参数详解

`shmget`

key_t key: 一个键值，用于标识一个全局唯一的共享内存段。
- 特殊键: IPC_PRIVATE (通常定义为 0) 是一个特殊键，它总是创建一个新的、唯一的共享内存段。
- 生成键: 通常使用 ftok 函数根据一个路径名和一个项目 ID 来生成一个唯一的 key_t 值。key_t ftok(const char *pathname, int proj_id);
size_t size: 请求的共享内存段的大小（以字节为单位）。
- 如果是创建新段（IPC_CREAT 被设置且该键尚不存在），则 size 指定新段的大小。
- 如果是获取已存在的段，则 size 可以为 0，或者必须小于或等于已存在段的大小。
int shmflg: 指定创建标志和权限。
- 创建标志:
  - IPC_CREAT: 如果指定的 key 不存在，则创建一个新的共享内存段。
  - IPC_EXCL: 与 IPC_CREAT 一起使用时，如果 key 已经存在，则 shmget 调用失败。这可以用来确保创建的是一个全新的段。
- 权限: 低 9 位用于指定访问权限，格式与文件权限相同（例如 0666 表示所有者、组、其他用户都可读写）。实际权限还会受到进程 umask 的影响。

`shmat`

int shmid: 由 shmget 返回的共享内存段标识符。
const void *shmaddr: 指定共享内存段应连接到进程地址空间的期望地址。
- NULL (推荐): 让内核选择一个合适的地址。这是最常用也是最安全的方式。
- 非 NULL: 指定一个具体地址。这需要非常小心，因为可能导致地址冲突或对齐问题。通常需要设置 shmflg 中的 SHM_RND 标志来指示地址可以被调整。
int shmflg: 控制连接行为的标志。
- SHM_RND: 如果 shmaddr 非 NULL，则将连接地址向下舍入到 SHMLBA（共享内存低端边界）的整数倍。
- SHM_RDONLY: 将共享内存段连接为只读。如果未设置，则连接为可读可写。

`shmdt`

const void *shmaddr: 由之前成功的 shmat 调用返回的连接地址。

`shmctl`

int shmid: 由 shmget 返回的共享内存段标识符。
int cmd: 指定要执行的控制命令。
- IPC_STAT: 将共享内存段的当前状态信息复制到 buf 指向的 struct shmid_ds 结构中。
- IPC_SET: 根据 buf 指向的 struct shmid_ds 结构中的 shm_perm 成员来设置共享内存段的权限和所有者。
- IPC_RMID: 立即销毁共享内存段。只有当所有进程都已将其分离（shmdt）后，内存才会真正被释放。如果仍有进程 attached，销毁操作会被标记，待所有进程 detach 后才执行。
struct shmid_ds *buf: 一个指向 struct shmid_ds 结构的指针，用于传递或接收共享内存段的状态信息。
struct shmid_ds 包含了许多关于共享内存段的元数据，例如：struct shmid_ds { struct ipc_perm shm_perm; // 操作权限 size_t shm_segsz; // 段大小 (字节) time_t shm_atime; // 最后 attach 时间 time_t shm_dtime; // 最后 detach 时间 time_t shm_ctime; // 最后 change 时间 pid_t shm_cpid; // 创建者 PID pid_t shm_lpid; // 最后操作者 PID shmatt_t shm_nattch; // 当前连接的进程数 // ... 可能还有其他字段 ... };

5. 返回值

shmget:
- 成功: 返回一个正整数，即共享内存段的标识符 (shmid)。
- 失败: 返回 -1，并设置 errno。
shmat:
- 成功: 返回共享内存段连接到进程地址空间的虚拟地址。
- 失败: 返回 (void *) -1 (即 MAP_FAILED，与 mmap 相同)，并设置 errno。
shmdt:
- 成功: 返回 0。
- 失败: 返回 -1，并设置 errno。
shmctl:
- 成功: 对于 IPC_RMID, IPC_SET 返回 0；对于 IPC_STAT 返回 0 并填充 buf。
- 失败: 返回 -1，并设置 errno。

6. 相似函数，或关联函数

POSIX 共享内存: shm_open, shm_unlink, mmap, munmap。这是更现代、更推荐的共享内存方式。
System V 消息队列: msgget, msgsnd, msgrcv, msgctl。
System V 信号量: semget, semop, semctl。
ftok: 用于生成 shmget 所需的 key_t 键值。
mmap / munmap: 另一种实现共享内存的方式（通过映射同一文件或使用 MAP_SHARED）。

7. 示例代码

示例 1：父子进程通过 System V 共享内存通信

这个经典的例子演示了如何使用 System V 共享内存在父子进程之间传递数据。

#include <sys/types.h>
#include <sys/ipc.h>
#include <sys/shm.h>
#include <sys/wait.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#define SHM_SIZE 1024 // 共享内存段大小

int main() {
    key_t key;
    int shmid;
    char *data;
    pid_t pid;

    // 1. 生成一个唯一的 key (使用 ftok)
    // 注意：确保 "/tmp" 存在且可访问
    key = ftok("/tmp", 'R'); // 'R' 是项目 ID
    if (key == -1) {
        perror("ftok");
        exit(EXIT_FAILURE);
    }
    printf("Generated key: %d\n", (int)key);

    // 2. 创建共享内存段 (如果不存在则创建)
    shmid = shmget(key, SHM_SIZE, 0666 | IPC_CREAT);
    if (shmid == -1) {
        perror("shmget");
        exit(EXIT_FAILURE);
    }
    printf("Shared memory segment created/retrieved with ID: %d\n", shmid);

    // 3. fork 创建子进程
    pid = fork();
    if (pid == -1) {
        perror("fork");
        // 尝试清理已创建的共享内存
        shmctl(shmid, IPC_RMID, NULL);
        exit(EXIT_FAILURE);
    }

    if (pid == 0) {
        // --- 子进程 ---
        printf("Child process (PID: %d) started.\n", getpid());

        // 4a. 子进程连接共享内存
        data = (char *)shmat(shmid, (void *)0, 0);
        if (data == (char *)(-1)) {
            perror("shmat in child");
            _exit(EXIT_FAILURE);
        }
        printf("Child: Shared memory attached at address: %p\n", (void *)data);

        // 5a. 子进程读取数据
        printf("Child: Reading from shared memory: %s\n", data);

        // 6a. 子进程修改数据
        strncpy(data, "Hello from CHILD process!", SHM_SIZE - 1);
        data[SHM_SIZE - 1] = '\0'; // 确保字符串结束
        printf("Child: Written to shared memory.\n");

        // 7a. 子进程分离共享内存
        if (shmdt(data) == -1) {
            perror("shmdt in child");
            _exit(EXIT_FAILURE);
        }
        printf("Child: Shared memory detached.\n");

        _exit(EXIT_SUCCESS);

    } else {
        // --- 父进程 ---
        printf("Parent process (PID: %d) started.\n", getpid());

        // 4b. 父进程连接共享内存
        data = (char *)shmat(shmid, (void *)0, 0);
        if (data == (char *)(-1)) {
            perror("shmat in parent");
            // 清理
            shmctl(shmid, IPC_RMID, NULL);
            exit(EXIT_FAILURE);
        }
        printf("Parent: Shared memory attached at address: %p\n", (void *)data);

        // 5b. 父进程写入初始数据
        strncpy(data, "Hello from PARENT process!", SHM_SIZE - 1);
        data[SHM_SIZE - 1] = '\0';
        printf("Parent: Written initial data to shared memory.\n");

        // 等待子进程完成
        int status;
        waitpid(pid, &status, 0);
        if (WIFEXITED(status)) {
            printf("Parent: Child exited with status %d.\n", WEXITSTATUS(status));
        } else {
            printf("Parent: Child did not exit normally.\n");
        }

        // 6b. 父进程读取子进程修改后的数据
        printf("Parent: Reading modified data from shared memory: %s\n", data);

        // 7b. 父进程分离共享内存
        if (shmdt(data) == -1) {
            perror("shmdt in parent");
            // 仍然尝试清理
        }
        printf("Parent: Shared memory detached.\n");

        // 8. 父进程销毁共享内存段
        // 只有当所有进程都 detach 后，IPC_RMID 才会真正释放内存
        if (shmctl(shmid, IPC_RMID, NULL) == -1) {
            perror("shmctl IPC_RMID");
            exit(EXIT_FAILURE);
        }
        printf("Parent: Shared memory segment destroyed.\n");
    }

    return 0;
}

代码解释:

使用 ftok("/tmp", 'R') 生成一个唯一的 key_t 键。/tmp 是一个通常存在的目录，'R' 是项目 ID（0-255）。
调用 shmget(key, SHM_SIZE, 0666 | IPC_CREAT) 创建或获取共享内存段。0666 设置了读写权限。
调用 fork() 创建子进程。
父子进程:
- 都调用 shmat(shmid, NULL, 0) 将共享内存段连接到自己的地址空间。NULL 让内核选择地址。
- 检查 shmat 的返回值是否为 (char *)-1。
父进程:
- 先向共享内存写入初始数据。
- 调用 waitpid 等待子进程结束。
- 子进程结束后，读取子进程写入的数据。
- 调用 shmdt 分离共享内存。
- 调用 shmctl(shmid, IPC_RMID, NULL) 销毁共享内存段。因为此时子进程已经 detach，所以内存会被立即释放。
子进程:
- 读取父进程写入的初始数据。
- 向共享内存写入自己的数据。
- 调用 shmdt 分离共享内存。
- 使用 _exit 退出。

示例 2：检查共享内存段状态

这个例子演示了如何使用 shmctl 的 IPC_STAT 命令来获取共享内存段的详细信息。

#include <sys/types.h>
#include <sys/ipc.h>
#include <sys/shm.h>
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <unistd.h>

int main() {
    key_t key;
    int shmid;
    struct shmid_ds shmid_struct;

    // 1. 生成 key
    key = ftok(".", 'S'); // 使用当前目录
    if (key == -1) {
        perror("ftok");
        exit(EXIT_FAILURE);
    }

    // 2. 创建共享内存段
    shmid = shmget(key, 2048, 0666 | IPC_CREAT);
    if (shmid == -1) {
        perror("shmget");
        exit(EXIT_FAILURE);
    }
    printf("Shared memory segment created with ID: %d\n", shmid);

    // 3. 获取并打印共享内存段状态
    if (shmctl(shmid, IPC_STAT, &shmid_struct) == -1) {
        perror("shmctl IPC_STAT");
        shmctl(shmid, IPC_RMID, NULL); // 清理
        exit(EXIT_FAILURE);
    }

    printf("\n--- Shared Memory Segment Status ---\n");
    printf("Key: %d\n", (int)shmid_struct.shm_perm.__key); // 注意：成员名可能因系统而异
    printf("ID: %d\n", shmid);
    printf("Size: %zu bytes\n", shmid_struct.shm_segsz);
    printf("Creator UID: %d\n", shmid_struct.shm_perm.uid);
    printf("Creator GID: %d\n", shmid_struct.shm_perm.gid);
    printf("Permissions: %o\n", shmid_struct.shm_perm.mode & 0777);
    printf("Current number of attached processes: %lu\n", (unsigned long)shmid_struct.shm_nattch);
    // 注意：时间字段可能需要 #define _GNU_SOURCE 和正确的包含
    // printf("Last attach time: %s", ctime(&shmid_struct.shm_atime));
    // printf("Last detach time: %s", ctime(&shmid_struct.shm_dtime));
    // printf("Last change time: %s", ctime(&shmid_struct.shm_ctime));
    printf("Creator PID: %d\n", shmid_struct.shm_cpid);
    printf("Last operator PID: %d\n", shmid_struct.shm_lpid);
    printf("------------------------------------\n");

    // 4. 简单使用共享内存 (连接、写入、分离)
    char *data = (char *)shmat(shmid, NULL, 0);
    if (data != (char *)-1) {
        snprintf(data, 100, "Data written by process %d", getpid());
        printf("Written to shared memory: %s\n", data);
        shmdt(data);
    } else {
        perror("shmat for usage");
    }

    // 5. 再次检查状态 (连接数应该变为 1 然后又变回 0)
    // 这里简化处理，实际连接和分离是瞬间的
    if (shmctl(shmid, IPC_STAT, &shmid_struct) == -1) {
        perror("shmctl IPC_STAT 2");
    } else {
        printf("Current number of attached processes (after usage): %lu\n", (unsigned long)shmid_struct.shm_nattch);
    }

    // 6. 销毁共享内存段
    if (shmctl(shmid, IPC_RMID, NULL) == -1) {
        perror("shmctl IPC_RMID");
        exit(EXIT_FAILURE);
    }
    printf("Shared memory segment destroyed.\n");

    return 0;
}

代码解释:

使用 ftok 生成键，并用 shmget 创建一个共享内存段。
定义一个 struct shmid_ds 类型的变量 shmid_struct。
调用 shmctl(shmid, IPC_STAT, &shmid_struct) 获取共享内存段的状态信息，并填充到 shmid_struct 中。
打印 shmid_struct 中的各种字段，如大小、权限、创建者 UID/GID、连接进程数等。
简单地连接、使用（写入数据）、分离共享内存段。
再次调用 shmctl IPC_STAT 查看状态变化（主要是 shm_nattch）。
最后调用 shmctl(shmid, IPC_RMID, NULL) 销毁共享内存段。

重要提示与注意事项:

清理: 使用 System V IPC 资源（共享内存、消息队列、信号量）后，务必调用相应的 ctl 函数（如 shmctl）并使用 IPC_RMID 命令进行销毁。否则，这些资源会一直存在于系统中，直到系统重启或手动使用 ipcrm 命令删除。
ftok 的可靠性: ftok 生成的键依赖于文件的 inode 和 mtime。如果文件被删除后重新创建，即使路径名相同，生成的键也可能不同。确保用作 ftok 参数的文件是稳定存在的。
错误处理: 始终检查这些函数的返回值，并进行适当的错误处理。
权限: 共享内存段的权限模型与文件系统类似，但检查是在 shmget, shmat 等调用时进行的。
与 mmap 的比较: System V 共享内存是内核管理的 IPC 对象，而通过 mmap 和 MAP_SHARED 实现的共享内存更像是一种内存映射文件的方式。POSIX 共享内存 (shm_open) 则结合了两者的优点，提供了命名的、基于文件描述符的共享内存机制。

总结:

shmget, shmat, shmdt, shmctl 这一组函数提供了 System V 共享内存 IPC 机制。虽然在现代编程中可能不如 POSIX 共享内存流行，但理解它们对于维护遗留代码和在特定系统环境中工作仍然至关重要。掌握它们的用法和生命周期管理是进行 Linux 进程间通信编程的基础之一。

发表在 linux文章 | 留下评论

Linux调度器函数详解

发表于2025-08-05由麦芽爸

Linux调度器函数详解

1. 概述

sched_* 函数族是 Linux 系统中用于进程调度控制的一系列系统调用。可以把调度器想象成”CPU 时间片的分配管理员”——它决定哪个进程什么时候获得 CPU 时间，就像交通警察决定哪辆车什么时候可以通过路口一样。

这些函数提供了对进程调度策略、优先级、CPU 亲和性等方面的精细控制，是实现高性能、实时应用的重要工具。

2. sched_* 函数列表

2.1 基础调度函数

sched_yield: 让出当前 CPU 时间片
sched_getscheduler: 获取进程调度策略
sched_setscheduler: 设置进程调度策略
sched_getparam: 获取进程调度参数
sched_setparam: 设置进程调度参数

2.2 CPU 亲和性函数

sched_getaffinity: 获取进程 CPU 亲和性
sched_setaffinity: 设置进程 CPU 亲和性

2.3 优先级函数

sched_get_priority_min: 获取指定策略的最小优先级
sched_get_priority_max: 获取指定策略的最大优先级
sched_rr_get_interval: 获取轮转调度的时间片间隔

2.4 CPU 信息函数

sched_getcpu: 获取当前 CPU 编号

3. 调度策略详解

3.1 调度策略类型

策略	值	说明
SCHED_OTHER	0	默认分时调度策略（CFS）
SCHED_FIFO	1	先进先出实时调度策略
SCHED_RR	2	轮转实时调度策略
SCHED_BATCH	3	批处理调度策略
SCHED_IDLE	5	空闲调度策略
SCHED_DEADLINE	6	截止时间调度策略

3.2 调度策略特点

#include <sched.h>
#include <stdio.h>

void show_scheduling_policies() {
    printf("=== 调度策略特点 ===\n");
    printf("SCHED_OTHER (默认):\n");
    printf("  • 用于普通进程\n");
    printf("  • 完全公平调度器 (CFS)\n");
    printf("  • 动态优先级调整\n");
    printf("  • 适合交互式应用\n\n");
    
    printf("SCHED_FIFO (实时 FIFO):\n");
    printf("  • 实时调度策略\n");
    printf("  • 高优先级进程一直运行直到阻塞或主动让出\n");
    printf("  • 不会时间片轮转\n");
    printf("  • 需要 root 权限\n\n");
    
    printf("SCHED_RR (实时轮转):\n");
    printf("  • 实时调度策略\n");
    printf("  • 时间片轮转调度\n");
    printf("  • 相同优先级进程轮流执行\n");
    printf("  • 需要 root 权限\n\n");
    
    printf("SCHED_BATCH (批处理):\n");
    printf("  • 用于批处理任务\n");
    printf("  • 减少唤醒频率\n");
    printf("  • 适合长时间运行的非交互任务\n\n");
    
    printf("SCHED_IDLE (空闲):\n");
    printf("  • 用于极低优先级任务\n");
    printf("  • 只在系统空闲时运行\n");
    printf("  • 不影响其他进程\n\n");
    
    printf("SCHED_DEADLINE (截止时间):\n");
    printf("  • 基于截止时间的调度\n");
    printf("  • 确保任务按时完成\n");
    printf("  • 需要特殊配置\n");
    printf("  • Linux 3.14+\n\n");
}

4. 函数详细介绍

4.1 sched_yield – 让出 CPU 时间片

函数原型

#include <sched.h>
int sched_yield(void);

功能

让出当前进程的 CPU 时间片，允许其他同优先级的进程运行。

参数

无参数

返回值

成功: 返回 0
失败: 返回 -1（实际上很少失败）

示例代码

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sched.h>
#include <time.h>
#include <errno.h>

// 消耗 CPU 的函数
void consume_cpu(int seconds) {
    time_t start = time(NULL);
    volatile long sum = 0;
    
    while (time(NULL) - start < seconds) {
        for (long i = 0; i < 1000000; i++) {
            sum += i;
        }
    }
}

int main() {
    printf("=== sched_yield 示例 ===\n\n");
    
    // 获取当前进程 ID 和 CPU 信息
    printf("进程 ID: %d\n", getpid());
    printf("父进程 ID: %d\n", getppid());
    
    // 获取当前 CPU 编号（如果有支持）
    int current_cpu = sched_getcpu();
    if (current_cpu != -1) {
        printf("当前 CPU: %d\n", current_cpu);
    } else {
        printf("无法获取当前 CPU 信息\n");
    }
    
    printf("\n1. 不使用 sched_yield 的 CPU 消耗:\n");
    printf("   开始消耗 CPU 时间...\n");
    
    time_t start_time = time(NULL);
    consume_cpu(3);  // 消耗 3 秒 CPU 时间
    time_t end_time = time(NULL);
    
    printf("   消耗完成，用时 %ld 秒\n", end_time - start_time);
    
    printf("\n2. 使用 sched_yield 的 CPU 消耗:\n");
    printf("   开始消耗 CPU 时间并让出时间片...\n");
    
    start_time = time(NULL);
    time_t yield_start = time(NULL);
    
    while (time(NULL) - yield_start < 3) {
        // 消耗一些 CPU 时间
        volatile long sum = 0;
        for (long i = 0; i < 500000; i++) {
            sum += i;
        }
        
        // 让出 CPU 时间片
        if (sched_yield() == -1) {
            perror("sched_yield 失败");
        }
    }
    
    end_time = time(NULL);
    printf("   消耗完成，用时 %ld 秒\n", end_time - start_time);
    
    printf("\n3. sched_yield 的实际效果:\n");
    printf("   • 允许其他同优先级进程运行\n");
    printf("   • 改善系统响应性\n");
    printf("   • 减少饥饿现象\n");
    printf("   • 适合协作式多任务\n");
    
    printf("\n=== sched_yield 使用场景 ===\n");
    printf("1. 长时间运行的循环\n");
    printf("2. 忙等待循环\n");
    printf("3. 协作式多任务\n");
    printf("4. 实时应用中的主动让出\n");
    printf("5. 负载均衡\n");
    
    printf("\n=== 注意事项 ===\n");
    printf("1. 不保证立即切换到其他进程\n");
    printf("2. 只影响同优先级进程\n");
    printf("3. 过度使用可能影响性能\n");
    printf("4. 不是强制调度切换\n");
    printf("5. 应该谨慎使用\n");
    
    return 0;
}

4.2 sched_getscheduler/sched_setscheduler – 调度策略控制

函数原型

#include <sched.h>

int sched_getscheduler(pid_t pid);
int sched_setscheduler(pid_t pid, int policy, const struct sched_param *param);

sched_param 结构体

struct sched_param {
    int sched_priority;  // 调度优先级
    // 对于 SCHED_DEADLINE，还有额外字段
};

功能

sched_getscheduler: 获取指定进程的调度策略
sched_setscheduler: 设置指定进程的调度策略和参数

参数

pid: 进程 ID（0 表示当前进程）
policy: 调度策略
param: 指向调度参数的指针

返回值

sched_getscheduler: 成功返回调度策略，失败返回 -1
sched_setscheduler: 成功返回 0，失败返回 -1

示例代码

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sched.h>
#include <errno.h>
#include <string.h>
#include <sys/resource.h>

// 将调度策略转换为字符串
const char* policy_to_string(int policy) {
    switch (policy) {
        case SCHED_OTHER: return "SCHED_OTHER (默认)";
        case SCHED_FIFO:  return "SCHED_FIFO (实时FIFO)";
        case SCHED_RR:    return "SCHED_RR (实时轮转)";
        case SCHED_BATCH: return "SCHED_BATCH (批处理)";
        case SCHED_IDLE:  return "SCHED_IDLE (空闲)";
        case SCHED_DEADLINE: return "SCHED_DEADLINE (截止时间)";
        default:          return "未知策略";
    }
}

// 显示进程调度信息
void show_process_scheduling_info(pid_t pid, const char *description) {
    printf("=== %s ===\n", description);
    
    if (pid == 0) {
        printf("进程: 当前进程 (PID: %d)\n", getpid());
    } else {
        printf("进程: PID %d\n", pid);
    }
    
    // 获取调度策略
    int policy = sched_getscheduler(pid);
    if (policy == -1) {
        perror("获取调度策略失败");
        return;
    }
    
    printf("调度策略: %s\n", policy_to_string(policy));
    
    // 获取调度参数
    struct sched_param param;
    if (sched_getparam(pid, &param) == 0) {
        printf("调度优先级: %d\n", param.sched_priority);
        
        // 显示优先级范围
        int min_priority = sched_get_priority_min(policy);
        int max_priority = sched_get_priority_max(policy);
        
        if (min_priority != -1 && max_priority != -1) {
            printf("优先级范围: %d - %d\n", min_priority, max_priority);
            
            if (param.sched_priority < min_priority || param.sched_priority > max_priority) {
                printf("⚠ 当前优先级超出范围\n");
            }
        }
    } else {
        perror("获取调度参数失败");
    }
    
    // 获取进程优先级
    errno = 0;
    int nice_value = getpriority(PRIO_PROCESS, pid);
    if (errno == 0) {
        printf("Nice 值: %d\n", nice_value);
    }
    
    printf("\n");
}

// 设置调度策略
int set_process_scheduling_policy(pid_t pid, int policy, int priority) {
    struct sched_param param;
    param.sched_priority = priority;
    
    printf("设置进程调度策略:\n");
    printf("  进程 ID: %d\n", pid ? pid : getpid());
    printf("  调度策略: %s\n", policy_to_string(policy));
    printf("  调度优先级: %d\n", priority);
    
    if (sched_setscheduler(pid, policy, &param) == 0) {
        printf("✓ 调度策略设置成功\n");
        return 0;
    } else {
        switch (errno) {
            case EPERM:
                printf("✗ 权限不足: 需要 root 权限设置实时策略\n");
                break;
            case EINVAL:
                printf("✗ 参数无效: 策略或优先级无效\n");
                break;
            case ESRCH:
                printf("✗ 进程不存在\n");
                break;
            default:
                printf("✗ 设置失败: %s\n", strerror(errno));
                break;
        }
        return -1;
    }
}

int main() {
    printf("=== sched_getscheduler/sched_setscheduler 示例 ===\n\n");
    
    // 显示当前用户信息
    printf("用户信息:\n");
    printf("  UID: %d\n", getuid());
    printf("  EUID: %d\n", geteuid());
    printf("  GID: %d\n", getgid());
    printf("  EGID: %d\n", getegid());
    printf("\n");
    
    // 显示初始调度信息
    show_process_scheduling_info(0, "初始调度信息");
    
    // 显示各种调度策略的优先级范围
    printf("=== 各种调度策略的优先级范围 ===\n");
    
    int policies[] = {SCHED_OTHER, SCHED_FIFO, SCHED_RR, SCHED_BATCH, SCHED_IDLE};
    int num_policies = sizeof(policies) / sizeof(policies[0]);
    
    for (int i = 0; i < num_policies; i++) {
        int min_priority = sched_get_priority_min(policies[i]);
        int max_priority = sched_get_priority_max(policies[i]);
        
        printf("%-20s: 最小优先级 %3d, 最大优先级 %3d\n", 
               policy_to_string(policies[i]), min_priority, max_priority);
    }
    printf("\n");
    
    // 演示调度策略设置（需要 root 权限）
    printf("=== 调度策略设置演示 ===\n");
    
    // 1. 尝试设置 SCHED_FIFO（需要 root 权限）
    printf("1. 尝试设置 SCHED_FIFO 策略:\n");
    if (set_process_scheduling_policy(0, SCHED_FIFO, 10) == 0) {
        show_process_scheduling_info(0, "设置 SCHED_FIFO 后");
    } else {
        printf("  说明: SCHED_FIFO 需要 root 权限\n");
    }
    
    // 2. 尝试设置 SCHED_RR（需要 root 权限）
    printf("\n2. 尝试设置 SCHED_RR 策略:\n");
    if (set_process_scheduling_policy(0, SCHED_RR, 15) == 0) {
        show_process_scheduling_info(0, "设置 SCHED_RR 后");
    } else {
        printf("  说明: SCHED_RR 需要 root 权限\n");
    }
    
    // 3. 尝试设置 SCHED_BATCH
    printf("\n3. 尝试设置 SCHED_BATCH 策略:\n");
    if (set_process_scheduling_policy(0, SCHED_BATCH, 0) == 0) {
        show_process_scheduling_info(0, "设置 SCHED_BATCH 后");
    } else {
        printf("  说明: 可能需要适当权限\n");
    }
    
    // 4. 恢复默认策略
    printf("\n4. 恢复默认 SCHED_OTHER 策略:\n");
    struct sched_param default_param = {0};
    if (sched_setscheduler(0, SCHED_OTHER, &default_param) == 0) {
        printf("✓ 成功恢复默认调度策略\n");
        show_process_scheduling_info(0, "恢复默认策略后");
    } else {
        printf("✗ 恢复默认策略失败: %s\n", strerror(errno));
    }
    
    printf("\n=== 调度策略使用建议 ===\n");
    printf("选择原则:\n");
    printf("1. 普通应用: 使用 SCHED_OTHER（默认）\n");
    printf("2. 实时应用: 使用 SCHED_FIFO 或 SCHED_RR\n");
    printf("3. 批处理任务: 使用 SCHED_BATCH\n");
    printf("4. 后台任务: 使用 SCHED_IDLE\n");
    printf("5. 截止时间任务: 使用 SCHED_DEADLINE\n");
    printf("\n");
    
    printf("权限要求:\n");
    printf("1. SCHED_OTHER/SCHED_BATCH/SCHED_IDLE: 普通权限\n");
    printf("2. SCHED_FIFO/SCHED_RR: 需要 root 权限\n");
    printf("3. SCHED_DEADLINE: 需要特殊配置\n");
    printf("\n");
    
    printf("性能影响:\n");
    printf("1. 实时策略: 更高优先级，更低延迟\n");
    printf("2. 批处理策略: 更低唤醒频率，更好吞吐\n");
    printf("3. 空闲策略: 不影响其他进程\n");
    printf("4. 默认策略: 平衡性能和公平性\n");
    
    return 0;
}

4.3 sched_getaffinity/sched_setaffinity – CPU 亲和性控制

函数原型

#define _GNU_SOURCE
#include <sched.h>

int sched_getaffinity(pid_t pid, size_t cpusetsize, cpu_set_t *mask);
int sched_setaffinity(pid_t pid, size_t cpusetsize, const cpu_set_t *mask);

CPU 集合操作宏

void CPU_ZERO(cpu_set_t *set);              // 清空 CPU 集合
void CPU_SET(int cpu, cpu_set_t *set);      // 设置 CPU
void CPU_CLR(int cpu, cpu_set_t *set);      // 清除 CPU
int  CPU_ISSET(int cpu, cpu_set_t *set);    // 检查 CPU 是否设置
int  CPU_COUNT(cpu_set_t *set);            // 计算设置的 CPU 数量

功能

sched_getaffinity: 获取进程的 CPU 亲和性掩码
sched_setaffinity: 设置进程的 CPU 亲和性掩码

参数

pid: 进程 ID（0 表示当前进程）
cpusetsize: CPU 集合的大小
mask: 指向 CPU 集合的指针

返回值

成功: 返回 0
失败: 返回 -1，并设置相应的 errno

示例代码

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sched.h>
#include <errno.h>
#include <string.h>

// 显示 CPU 集合信息
void show_cpu_set_info(const cpu_set_t *cpu_set, const char *description) {
    printf("=== %s ===\n", description);
    
    int cpu_count = CPU_COUNT((cpu_set_t*)cpu_set);
    printf("CPU 数量: %d\n", cpu_count);
    
    printf("CPU 列表: ");
    int printed = 0;
    for (int i = 0; i < CPU_SETSIZE; i++) {
        if (CPU_ISSET(i, (cpu_set_t*)cpu_set)) {
            if (printed > 0) printf(", ");
            printf("%d", i);
            printed++;
        }
    }
    if (printed == 0) {
        printf("无");
    }
    printf("\n\n");
}

// 获取系统 CPU 信息
void show_system_cpu_info() {
    printf("=== 系统 CPU 信息 ===\n");
    
    // 获取在线 CPU 数量
    int online_cpus = sysconf(_SC_NPROCESSORS_ONLN);
    printf("在线 CPU 数量: %d\n", online_cpus);
    
    // 获取配置的 CPU 数量
    int conf_cpus = sysconf(_SC_NPROCESSORS_CONF);
    printf("配置 CPU 数量: %d\n", conf_cpus);
    
    // 显示当前进程的 CPU 亲和性
    cpu_set_t current_set;
    CPU_ZERO(&current_set);
    
    if (sched_getaffinity(0, sizeof(current_set), &current_set) == 0) {
        show_cpu_set_info(&current_set, "当前进程 CPU 亲和性");
    } else {
        perror("获取 CPU 亲和性失败");
    }
}

// 设置 CPU 亲和性
int set_process_cpu_affinity(pid_t pid, const int *cpu_list, int cpu_count) {
    cpu_set_t cpu_set;
    CPU_ZERO(&cpu_set);
    
    printf("设置 CPU 亲和性:\n");
    printf("  进程 ID: %d\n", pid ? pid : getpid());
    printf("  CPU 列表: ");
    
    for (int i = 0; i < cpu_count; i++) {
        if (i > 0) printf(", ");
        printf("%d", cpu_list[i]);
        CPU_SET(cpu_list[i], &cpu_set);
    }
    printf("\n");
    
    if (sched_setaffinity(pid, sizeof(cpu_set), &cpu_set) == 0) {
        printf("✓ CPU 亲和性设置成功\n");
        return 0;
    } else {
        printf("✗ CPU 亲和性设置失败: %s\n", strerror(errno));
        return -1;
    }
}

// 创建 CPU 绑定的测试线程
void* cpu_bound_worker(void *arg) {
    int worker_id = *(int*)arg;
    
    printf("工作线程 %d 启动\n", worker_id);
    
    // 获取线程的 CPU 信息
    int current_cpu = sched_getcpu();
    if (current_cpu != -1) {
        printf("  工作线程 %d 运行在 CPU %d 上\n", worker_id, current_cpu);
    }
    
    // 执行一些 CPU 密集型任务
    volatile long sum = 0;
    for (long i = 0; i < 10000000; i++) {
        sum += i;
        
        // 偶尔检查 CPU 变化
        if (i % 1000000 == 0) {
            int new_cpu = sched_getcpu();
            if (new_cpu != current_cpu && new_cpu != -1) {
                printf("  工作线程 %d 从 CPU %d 切换到 CPU %d\n", 
                       worker_id, current_cpu, new_cpu);
                current_cpu = new_cpu;
            }
        }
    }
    
    printf("工作线程 %d 完成\n", worker_id);
    return NULL;
}

int main() {
    printf("=== sched_getaffinity/sched_setaffinity 示例 ===\n\n");
    
    // 显示系统信息
    show_system_cpu_info();
    
    // 1. 获取当前进程的 CPU 亲和性
    printf("1. 获取当前进程 CPU 亲和性:\n");
    cpu_set_t initial_set;
    CPU_ZERO(&initial_set);
    
    if (sched_getaffinity(0, sizeof(initial_set), &initial_set) == 0) {
        show_cpu_set_info(&initial_set, "初始 CPU 亲和性");
    } else {
        perror("获取初始 CPU 亲和性失败");
    }
    
    // 2. 设置 CPU 亲和性（绑定到特定 CPU）
    printf("2. 设置 CPU 亲和性:\n");
    
    // 获取系统 CPU 数量
    int online_cpus = sysconf(_SC_NPROCESSORS_ONLN);
    printf("系统在线 CPU 数量: %d\n", online_cpus);
    
    if (online_cpus > 1) {
        // 绑定到第一个 CPU
        int single_cpu[] = {0};
        if (set_process_cpu_affinity(0, single_cpu, 1) == 0) {
            cpu_set_t new_set;
            CPU_ZERO(&new_set);
            
            if (sched_getaffinity(0, sizeof(new_set), &new_set) == 0) {
                show_cpu_set_info(&new_set, "设置后 CPU 亲和性");
            }
        }
        
        // 绑定到前两个 CPU
        printf("绑定到前两个 CPU:\n");
        int two_cpus[] = {0, 1};
        if (set_process_cpu_affinity(0, two_cpus, 2) == 0) {
            cpu_set_t new_set;
            CPU_ZERO(&new_set);
            
            if (sched_getaffinity(0, sizeof(new_set), &new_set) == 0) {
                show_cpu_set_info(&new_set, "绑定到前两个 CPU 后");
            }
        }
    } else {
        printf("系统只有一个 CPU，跳过 CPU 绑定测试\n");
    }
    
    // 3. 恢复初始 CPU 亲和性
    printf("3. 恢复初始 CPU 亲和性:\n");
    if (sched_setaffinity(0, sizeof(initial_set), &initial_set) == 0) {
        printf("✓ 成功恢复初始 CPU 亲和性\n");
        
        cpu_set_t restored_set;
        CPU_ZERO(&restored_set);
        
        if (sched_getaffinity(0, sizeof(restored_set), &restored_set) == 0) {
            show_cpu_set_info(&restored_set, "恢复后 CPU 亲和性");
        }
    } else {
        printf("✗ 恢复初始 CPU 亲和性失败: %s\n", strerror(errno));
    }
    
    // 4. 显示 CPU 亲和性的好处
    printf("=== CPU 亲和性的好处 ===\n");
    printf("性能优化:\n");
    printf("1. 减少 CPU 缓存失效\n");
    printf("2. 提高缓存命中率\n");
    printf("3. 降低上下文切换开销\n");
    printf("4. 改善 NUMA 访问模式\n");
    printf("5. 提高多核应用性能\n");
    printf("\n");
    
    printf("应用场景:\n");
    printf("1. 高性能计算应用\n");
    printf("2. 实时系统\n");
    printf("3. 数据库服务器\n");
    printf("4. 游戏服务器\n");
    printf("5. 科学计算\n");
    printf("6. 音视频处理\n");
    printf("\n");
    
    printf("注意事项:\n");
    printf("1. 过度限制可能影响负载均衡\n");
    printf("2. NUMA 架构需要考虑内存亲和性\n");
    printf("3. 应该根据应用特点合理设置\n");
    printf("4. 避免与其他进程争抢 CPU\n");
    printf("5. 监控系统整体性能\n");
    
    return 0;
}

4.4 sched_get_priority_min/sched_get_priority_max – 优先级范围查询

函数原型

#include <sched.h>

int sched_get_priority_min(int policy);
int sched_get_priority_max(int policy);

功能

获取指定调度策略的最小和最大优先级值。

参数

policy: 调度策略

返回值

成功: 返回对应的优先级值
失败: 返回 -1，并设置相应的 errno

示例代码

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sched.h>
#include <errno.h>
#include <string.h>

// 显示调度策略优先级范围
void show_policy_priority_range(int policy, const char *policy_name) {
    int min_priority = sched_get_priority_min(policy);
    int max_priority = sched_get_priority_max(policy);
    
    printf("%-20s: ", policy_name);
    
    if (min_priority == -1 || max_priority == -1) {
        printf("不支持 (%s)\n", strerror(errno));
    } else {
        printf("最小优先级 %3d, 最大优先级 %3d", min_priority, max_priority);
        
        if (min_priority == max_priority) {
            printf(" (固定优先级)");
        } else if (min_priority < max_priority) {
            printf(" (动态优先级范围)");
        }
        printf("\n");
    }
}

// 显示所有调度策略的优先级范围
void show_all_policy_ranges() {
    printf("=== 所有调度策略优先级范围 ===\n");
    
    struct {
        int policy;
        const char *name;
    } policies[] = {
        {SCHED_OTHER, "SCHED_OTHER"},
        {SCHED_FIFO, "SCHED_FIFO"},
        {SCHED_RR, "SCHED_RR"},
        {SCHED_BATCH, "SCHED_BATCH"},
        {SCHED_IDLE, "SCHED_IDLE"},
        {SCHED_DEADLINE, "SCHED_DEADLINE"},
        {-1, NULL}
    };
    
    for (int i = 0; policies[i].name; i++) {
        show_policy_priority_range(policies[i].policy, policies[i].name);
    }
    
    printf("\n");
}

// 优先级验证函数
int validate_priority_for_policy(int policy, int priority) {
    int min_priority = sched_get_priority_min(policy);
    int max_priority = sched_get_priority_max(policy);
    
    if (min_priority == -1 || max_priority == -1) {
        return -1;  // 策略不支持
    }
    
    if (priority >= min_priority && priority <= max_priority) {
        return 0;  // 优先级有效
    } else {
        return 1;  // 优先级无效
    }
}

// 显示优先级验证结果
void show_priority_validation(int policy, int priority) {
    const char *policy_name = NULL;
    switch (policy) {
        case SCHED_OTHER: policy_name = "SCHED_OTHER"; break;
        case SCHED_FIFO: policy_name = "SCHED_FIFO"; break;
        case SCHED_RR: policy_name = "SCHED_RR"; break;
        case SCHED_BATCH: policy_name = "SCHED_BATCH"; break;
        case SCHED_IDLE: policy_name = "SCHED_IDLE"; break;
        case SCHED_DEADLINE: policy_name = "SCHED_DEADLINE"; break;
        default: policy_name = "未知策略"; break;
    }
    
    printf("验证 %s 策略优先级 %d: ", policy_name, priority);
    
    int result = validate_priority_for_policy(policy, priority);
    switch (result) {
        case -1:
            printf("策略不支持\n");
            break;
        case 0:
            printf("✓ 有效\n");
            break;
        case 1:
            printf("✗ 无效\n");
            break;
    }
}

int main() {
    printf("=== sched_get_priority_min/max 示例 ===\n\n");
    
    // 显示所有策略的优先级范围
    show_all_policy_ranges();
    
    // 显示当前进程信息
    printf("当前进程信息:\n");
    printf("  进程 ID: %d\n", getpid());
    printf("  父进程 ID: %d\n", getppid());
    printf("  用户 ID: %d\n", getuid());
    printf("  组 ID: %d\n", getgid());
    
    // 获取当前进程调度策略
    int current_policy = sched_getscheduler(0);
    if (current_policy != -1) {
        printf("  当前调度策略: %d ", current_policy);
        switch (current_policy) {
            case SCHED_OTHER: printf("(SCHED_OTHER)\n"); break;
            case SCHED_FIFO: printf("(SCHED_FIFO)\n"); break;
            case SCHED_RR: printf("(SCHED_RR)\n"); break;
            case SCHED_BATCH: printf("(SCHED_BATCH)\n"); break;
            case SCHED_IDLE: printf("(SCHED_IDLE)\n"); break;
            case SCHED_DEADLINE: printf("(SCHED_DEADLINE)\n"); break;
            default: printf("(未知)\n"); break;
        }
        
        // 获取当前进程优先级
        struct sched_param current_param;
        if (sched_getparam(0, &current_param) == 0) {
            printf("  当前优先级: %d\n", current_param.sched_priority);
            
            // 验证当前优先级
            show_priority_validation(current_policy, current_param.sched_priority);
        }
    } else {
        perror("获取当前调度策略失败");
    }
    
    printf("\n");
    
    // 验证不同策略的优先级
    printf("=== 优先级验证示例 ===\n");
    
    // SCHED_OTHER 策略
    printf("SCHED_OTHER 策略:\n");
    show_priority_validation(SCHED_OTHER, 0);      // 有效
    show_priority_validation(SCHED_OTHER, -1);     // 无效
    show_priority_validation(SCHED_OTHER, 10);      // 无效
    
    // SCHED_FIFO 策略
    printf("\nSCHED_FIFO 策略:\n");
    show_priority_validation(SCHED_FIFO, 10);       // 可能有效
    show_priority_validation(SCHED_FIFO, 50);      // 可能有效
    show_priority_validation(SCHED_FIFO, 99);       // 可能有效
    show_priority_validation(SCHED_FIFO, 100);      // 可能无效
    
    // SCHED_RR 策略
    printf("\nSCHED_RR 策略:\n");
    show_priority_validation(SCHED_RR, 10);        // 可能有效
    show_priority_validation(SCHED_RR, 50);         // 可能有效
    show_priority_validation(SCHED_RR, 99);         // 可能有效
    show_priority_validation(SCHED_RR, 100);        // 可能无效
    
    // SCHED_BATCH 策略
    printf("\nSCHED_BATCH 策略:\n");
    show_priority_validation(SCHED_BATCH, 0);      // 有效
    show_priority_validation(SCHED_BATCH, -1);     // 无效
    show_priority_validation(SCHED_BATCH, 10);      // 无效
    
    // SCHED_IDLE 策略
    printf("\nSCHED_IDLE 策略:\n");
    show_priority_validation(SCHED_IDLE, 0);       // 有效
    show_priority_validation(SCHED_IDLE, -1);      // 无效
    show_priority_validation(SCHED_IDLE, 10);      // 无效
    
    printf("\n=== 优先级使用建议 ===\n");
    printf("优先级设置原则:\n");
    printf("1. 了解策略的优先级范围\n");
    printf("2. 合理分配优先级值\n");
    printf("3. 避免优先级反转\n");
    printf("4. 考虑系统整体平衡\n");
    printf("5. 验证优先级的有效性\n");
    printf("\n");
    
    printf("实时策略优先级:\n");
    printf("1. SCHED_FIFO/SCHED_RR: 1-99 (通常)\n");
    printf("2. 数值越大优先级越高\n");
    printf("3. 需要 root 权限\n");
    printf("4. 谨慎使用高优先级\n");
    printf("5. 避免独占 CPU\n");
    printf("\n");
    
    printf("普通策略优先级:\n");
    printf("1. SCHED_OTHER: 通常为 0\n");
    printf("2. 通过 nice 值调整\n");
    printf("3. 使用动态优先级\n");
    printf("4. 平衡系统负载\n");
    printf("5. 适合交互式应用\n");
    
    return 0;
}

4.5 sched_rr_get_interval – 轮转调度时间片

函数原型

#include <sched.h>

int sched_rr_get_interval(pid_t pid, struct timespec *tp);

功能

获取 SCHED_RR 策略的时间片长度。

参数

pid: 进程 ID（0 表示当前进程）
tp: 指向 timespec 结构体的指针，用于存储时间片长度

返回值

成功: 返回 0
失败: 返回 -1，并设置相应的 errno

示例代码

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sched.h>
#include <errno.h>
#include <string.h>
#include <time.h>

// 显示时间片信息
void show_timeslice_info(const struct timespec *interval, const char *description) {
    printf("=== %s ===\n", description);
    
    if (interval->tv_sec == 0 && interval->tv_nsec == 0) {
        printf("时间片长度: 未设置\n");
    } else {
        printf("时间片长度: %ld.%09ld 秒\n", 
               (long)interval->tv_sec, (long)interval->tv_nsec);
        printf("时间片长度: %.3f 毫秒\n", 
               (double)interval->tv_sec * 1000 + (double)interval->tv_nsec / 1000000);
        printf("时间片长度: %.3f 微秒\n", 
               (double)interval->tv_sec * 1000000 + (double)interval->tv_nsec / 1000);
        printf("时间片长度: %ld 纳秒\n", 
               (long)interval->tv_sec * 1000000000 + (long)interval->tv_nsec);
    }
    
    printf("\n");
}

// 获取 RR 调度时间片
int get_rr_timeslice(pid_t pid) {
    struct timespec interval;
    
    printf("获取 SCHED_RR 时间片长度:\n");
    printf("  进程 ID: %d\n", pid ? pid : getpid());
    
    if (sched_rr_get_interval(pid, &interval) == 0) {
        show_timeslice_info(&interval, "RR 调度时间片");
        return 0;
    } else {
        switch (errno) {
            case EINVAL:
                printf("✗ 进程不是 SCHED_RR 策略\n");
                break;
            case ESRCH:
                printf("✗ 进程不存在\n");
                break;
            default:
                printf("✗ 获取时间片失败: %s\n", strerror(errno));
                break;
        }
        return -1;
    }
}

// 比较不同策略的时间片
void compare_policy_intervals() {
    printf("=== 不同策略时间片比较 ===\n");
    
    // 获取当前进程时间片（假设是 SCHED_OTHER）
    struct timespec current_interval;
    if (sched_rr_get_interval(0, &current_interval) == 0) {
        printf("当前进程时间片: %ld.%09ld 秒\n", 
               (long)current_interval.tv_sec, (long)current_interval.tv_nsec);
    } else {
        printf("当前进程时间片: 无法获取 (%s)\n", strerror(errno));
    }
    
    // 显示系统时间片配置
    printf("\n系统时间片配置:\n");
    
    // 读取内核参数
    FILE *fp = fopen("/proc/sys/kernel/sched_rr_timeslice_ms", "r");
    if (fp) {
        char buffer[64];
        if (fgets(buffer, sizeof(buffer), fp)) {
            printf("  RR 时间片 (ms): %s", buffer);
        }
        fclose(fp);
    } else {
        printf("  RR 时间片: 无法读取系统配置\n");
    }
    
    // 显示其他相关配置
    printf("其他相关配置:\n");
    system("cat /proc/sys/kernel/sched_child_runs_first 2>/dev/null || echo '  无法读取 sched_child_runs_first'");
    system("cat /proc/sys/kernel/sched_autogroup_enabled 2>/dev/null || echo '  无法读取 sched_autogroup_enabled'");
    
    printf("\n");
}

int main() {
    printf("=== sched_rr_get_interval 示例 ===\n\n");
    
    // 显示系统信息
    printf("系统信息:\n");
    printf("  内核版本: ");
    system("uname -r | tr -d '\\n'");
    printf("\n");
    printf("  CPU 架构: ");
    system("uname -m | tr -d '\\n'");
    printf("\n");
    printf("  进程 ID: %d\n", getpid());
    printf("  父进程 ID: %d\n", getppid());
    printf("\n");
    
    // 1. 获取当前进程时间片
    printf("1. 获取当前进程时间片:\n");
    get_rr_timeslice(0);
    
    // 2. 尝试获取不存在进程的时间片
    printf("2. 尝试获取不存在进程的时间片:\n");
    if (sched_rr_get_interval(999999, &(struct timespec){0}) == -1) {
        if (errno == ESRCH) {
            printf("✓ 正确处理不存在进程: ESRCH\n");
        } else {
            printf("✗ 意外错误: %s\n", strerror(errno));
        }
    }
    
    // 3. 尝试获取非 RR 策略进程的时间片
    printf("3. 尝试获取非 RR 策略进程的时间片:\n");
    if (sched_rr_get_interval(0, &(struct timespec){0}) == -1) {
        if (errno == EINVAL) {
            printf("✓ 正确处理非 RR 策略进程: EINVAL\n");
            printf("  说明: 当前进程使用默认 SCHED_OTHER 策略\n");
        } else {
            printf("✗ 其他错误: %s\n", strerror(errno));
        }
    }
    
    // 4. 显示系统时间片配置
    compare_policy_intervals();
    
    // 5. 显示时间片对性能的影响
    printf("=== 时间片对性能的影响 ===\n");
    printf("时间片长度的影响:\n");
    printf("1. 较短时间片:\n");
    printf("   • 更好的响应性\n");
    printf("   • 更多上下文切换\n");
    printf("   • 更低吞吐量\n");
    printf("   • 更高延迟\n");
    printf("\n");
    
    printf("2. 较长时间片:\n");
    printf("   • 更低响应性\n");
    printf("   • 更少上下文切换\n");
    printf("   • 更高吞吐量\n");
    printf("   • 更低延迟\n");
    printf("\n");
    
    printf("3. 默认时间片:\n");
    printf("   • 平衡响应性和吞吐量\n");
    printf("   • 通常为 10-100ms\n");
    printf("   • 适应大多数应用\n");
    printf("   • 可配置调整\n");
    printf("\n");
    
    printf("应用场景:\n");
    printf("1. 实时系统: 需要短时间片保证响应性\n");
    printf("2. 批处理系统: 需要长时间片提高吞吐量\n");
    printf("3. 交互式应用: 需要适中时间片平衡各方面\n");
    printf("4. 服务器应用: 根据负载动态调整\n");
    printf("5. 嵌入式系统: 根据硬件特性优化\n");
    printf("\n");
    
    printf("配置建议:\n");
    printf("1. 监控上下文切换频率\n");
    printf("2. 调整时间片适应应用特点\n");
    printf("3. 考虑系统整体负载\n");
    printf("4. 测试不同配置的性能\n");
    printf("5. 避免极端配置影响系统稳定性\n");
    
    return 0;
}

4.6 sched_getcpu – 获取当前 CPU 编号

函数原型

#define _GNU_SOURCE
#include <sched.h>

int sched_getcpu(void);

功能

获取调用线程当前运行的 CPU 编号。

参数

无参数

返回值

成功: 返回 CPU 编号（从 0 开始）
失败: 返回 -1，并设置相应的 errno

示例代码

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sched.h>
#include <errno.h>
#include <string.h>
#include <pthread.h>
#include <sys/syscall.h>

// 获取 CPU 信息的辅助函数
void show_cpu_info() {
    printf("=== CPU 信息 ===\n");
    
    // 获取当前 CPU 编号
    int current_cpu = sched_getcpu();
    if (current_cpu != -1) {
        printf("当前 CPU 编号: %d\n", current_cpu);
    } else {
        printf("无法获取当前 CPU 编号: %s\n", strerror(errno));
    }
    
    // 获取系统 CPU 数量
    long online_cpus = sysconf(_SC_NPROCESSORS_ONLN);
    long conf_cpus = sysconf(_SC_NPROCESSORS_CONF);
    
    printf("在线 CPU 数量: %ld\n", online_cpus);
    printf("配置 CPU 数量: %ld\n", conf_cpus);
    
    // 显示 CPU 信息
    printf("CPU 详细信息:\n");
    system("lscpu | head -10 2>/dev/null || echo '无法获取 CPU 详细信息'");
    
    printf("\n");
}

// 线程函数，显示线程的 CPU 信息
void* thread_cpu_info(void* arg) {
    int thread_id = *(int*)arg;
    int initial_cpu, current_cpu;
    
    // 获取初始 CPU
    initial_cpu = sched_getcpu();
    
    printf("线程 %d:\n", thread_id);
    printf("  初始 CPU: %d\n", initial_cpu);
    
    // 执行一些工作并检查 CPU 变化
    volatile long sum = 0;
    for (long i = 0; i < 10000000; i++) {
        sum += i;
        
        // 偶尔检查 CPU 变化
        if (i % 1000000 == 0) {
            current_cpu = sched_getcpu();
            if (current_cpu != initial_cpu && current_cpu != -1) {
                printf("  线程 %d 从 CPU %d 切换到 CPU %d\n", 
                       thread_id, initial_cpu, current_cpu);
                initial_cpu = current_cpu;
            }
        }
    }
    
    // 最终 CPU
    current_cpu = sched_getcpu();
    printf("  最终 CPU: %d\n", current_cpu);
    printf("  线程 %d 完成\n", thread_id);
    
    return NULL;
}

// CPU 绑定测试
void test_cpu_binding() {
    printf("=== CPU 绑定测试 ===\n");
    
    // 获取系统 CPU 数量
    long online_cpus = sysconf(_SC_NPROCESSORS_ONLN);
    if (online_cpus <= 1) {
        printf("系统只有一个 CPU，跳过绑定测试\n");
        return;
    }
    
    // 创建多个线程
    pthread_t threads[4];
    int thread_ids[4] = {1, 2, 3, 4};
    
    printf("创建 4 个线程进行 CPU 绑定测试:\n");
    
    for (int i = 0; i < 4; i++) {
        if (pthread_create(&threads[i], NULL, thread_cpu_info, &thread_ids[i]) != 0) {
            perror("创建线程失败");
            return;
        }
    }
    
    // 等待所有线程完成
    for (int i = 0; i < 4; i++) {
        pthread_join(threads[i], NULL);
    }
    
    printf("CPU 绑定测试完成\n\n");
}

int main() {
    printf("=== sched_getcpu 示例 ===\n\n");
    
    // 显示系统信息
    show_cpu_info();
    
    // 显示当前进程信息
    printf("进程信息:\n");
    printf("  进程 ID: %d\n", getpid());
    printf("  父进程 ID: %d\n", getppid());
    printf("  线程 ID: %ld\n", syscall(SYS_gettid));
    
    // 获取当前 CPU
    int current_cpu = sched_getcpu();
    if (current_cpu != -1) {
        printf("  当前运行 CPU: %d\n", current_cpu);
    } else {
        printf("  无法获取 CPU 信息: %s\n", strerror(errno));
    }
    
    printf("\n");
    
    // 连续获取 CPU 信息观察变化
    printf("连续获取 CPU 信息 (执行密集计算):\n");
    volatile long sum = 0;
    int initial_cpu = sched_getcpu();
    
    printf("  初始 CPU: %d\n", initial_cpu);
    
    for (long i = 0; i < 50000000; i++) {
        sum += i;
        
        // 每隔一定次数检查 CPU
        if (i % 10000000 == 0) {
            int current_cpu = sched_getcpu();
            if (current_cpu != -1) {
                printf("  计算 %ld 次后 CPU: %d\n", i, current_cpu);
            }
        }
    }
    
    int final_cpu = sched_getcpu();
    printf("  最终 CPU: %d\n", final_cpu);
    
    if (initial_cpu != final_cpu && initial_cpu != -1 && final_cpu != -1) {
        printf("  ✓ CPU 在计算过程中发生了切换\n");
    } else {
        printf("  CPU 在计算过程中保持不变\n");
    }
    
    printf("\n");
    
    // CPU 绑定测试
    test_cpu_binding();
    
    // 显示 CPU 调度信息
    printf("=== CPU 调度信息 ===\n");
    printf("CPU 调度相关概念:\n");
    printf("1. CPU 亲和性: 进程可以运行的 CPU 集合\n");
    printf("2. 负载均衡: 系统在 CPU 间分配负载\n");
    printf("3. 上下文切换: 进程在 CPU 间的切换\n");
    printf("4. 缓存局部性: 数据在 CPU 缓存中的位置\n");
    printf("5. NUMA 拓扑: 非统一内存访问架构\n");
    printf("\n");
    
    printf("sched_getcpu 的用途:\n");
    printf("1. 性能分析: 监控线程 CPU 使用情况\n");
    printf("2. 负载均衡: 了解 CPU 分配情况\n");
    printf("3. 调试工具: 分析程序执行行为\n");
    printf("4. 实时系统: 监控实时性约束\n");
    printf("5. 优化建议: 识别性能瓶颈\n");
    printf("\n");
    
    printf("使用建议:\n");
    printf("1. 结合 CPU 亲和性使用\n");
    printf("2. 监控 CPU 切换频率\n");
    printf("3. 分析热点 CPU\n");
    printf("4. 优化缓存局部性\n");
    printf("5. 避免过度绑定 CPU\n");
    
    return 0;
}

3. 编译和运行说明

# 编译所有示例程序
gcc -o pread_example pread_example.c
gcc -o affinity_example affinity_example.c
gcc -o priority_example priority_example.c
gcc -o rr_interval_example rr_interval_example.c
gcc -o getcpu_example getcpu_example.c -lpthread

# 运行示例程序
./pread_example
./affinity_example
./priority_example
./rr_interval_example
./getcpu_example

# 需要 root 权限的测试
sudo ./priority_example
sudo ./rr_interval_example

4. 系统要求检查

# 检查内核版本
uname -r

# 检查系统调用支持
grep -E "(pread|pwrite)" /usr/include/asm/unistd_64.h

# 检查 CPU 信息
lscpu

# 检查调度器信息
cat /proc/sched_debug 2>/dev/null || echo "无法读取调度器调试信息"

# 检查实时调度支持
grep -i realtime /boot/config-$(uname -r)

# 检查 NUMA 支持
numactl --hardware 2>/dev/null || echo "系统不支持 NUMA"

5. 重要注意事项

5.1 权限要求

普通用户: 可以使用 pread/pwrite 等基本 I/O 操作
root 用户: 需要设置实时调度策略 (SCHED_FIFO/SCHED_RR)
CAP_SYS_NICE: 某些操作需要此能力

5.2 错误处理

// 安全的系统调用封装
int safe_pread(int fd, void *buf, size_t count, off_t offset) {
    if (fd < 0 || !buf || count == 0) {
        errno = EINVAL;
        return -1;
    }
    
    ssize_t result;
    do {
        result = pread(fd, buf, count, offset);
    } while (result == -1 && errno == EINTR);
    
    return result;
}

// 安全的 CPU 亲和性设置
int safe_sched_setaffinity(pid_t pid, const cpu_set_t *mask) {
    if (!mask) {
        errno = EINVAL;
        return -1;
    }
    
    return sched_setaffinity(pid, sizeof(cpu_set_t), mask);
}

5.3 性能考虑

// 性能优化建议
void performance_optimization_tips() {
    printf("性能优化建议:\n");
    printf("1. 批量操作: 使用 preadv/pwritev 减少系统调用次数\n");
    printf("2. 缓冲区大小: 合理设置缓冲区大小避免频繁调用\n");
    printf("3. CPU 亲和性: 合理绑定 CPU 提高缓存命中率\n");
    printf("4. 调度策略: 根据应用特点选择合适的调度策略\n");
    printf("5. 优先级设置: 避免过度使用高优先级影响系统稳定性\n");
    printf("6. 时间片调整: 根据应用需求调整时间片长度\n");
    printf("7. 资源限制: 合理设置进程资源限制\n");
    printf("8. 内存管理: 避免内存碎片和频繁分配\n");
}

5.4 最佳实践

// 完整的 I/O 操作最佳实践
typedef struct {
    int fd;
    size_t buffer_size;
    int use_positioned_io;
    int use_scatter_gather;
    cpu_set_t cpu_affinity;
    int has_cpu_affinity;
} io_context_t;

// 初始化 I/O 上下文
int init_io_context(io_context_t *ctx, const char *filename) {
    ctx->fd = open(filename, O_RDWR | O_CREAT, 0644);
    if (ctx->fd == -1) {
        return -1;
    }
    
    ctx->buffer_size = 4096;
    ctx->use_positioned_io = 1;
    ctx->use_scatter_gather = 0;
    ctx->has_cpu_affinity = 0;
    
    return 0;
}

// 清理 I/O 上下文
void cleanup_io_context(io_context_t *ctx) {
    if (ctx->fd != -1) {
        close(ctx->fd);
        ctx->fd = -1;
    }
}

6. 实际应用场景

6.1 数据库系统

// 数据库页 I/O 操作
int db_page_io(int fd, off_t page_offset, void *page_data, size_t page_size) {
    // 使用 pread/pwrite 进行页级别的随机访问
    ssize_t bytes_read = pread(fd, page_data, page_size, page_offset);
    return (bytes_read == (ssize_t)page_size) ? 0 : -1;
}

6.2 实时系统

// 实时应用调度设置
int setup_realtime_scheduling(int priority) {
    struct sched_param param;
    param.sched_priority = priority;
    
    // 设置实时调度策略
    if (sched_setscheduler(0, SCHED_FIFO, &param) == -1) {
        return -1;
    }
    
    // 设置 CPU 亲和性
    cpu_set_t cpu_set;
    CPU_ZERO(&cpu_set);
    CPU_SET(0, &cpu_set);  // 绑定到 CPU 0
    
    return sched_setaffinity(0, sizeof(cpu_set), &cpu_set);
}

6.3 网络服务器

// 网络服务器 I/O 处理
int handle_network_io(int client_fd, struct iovec *iov, int iovcnt) {
    // 使用 preadv/pwritev 处理网络数据包
    return pwritev(client_fd, iov, iovcnt, 0);
}

7. 总结

7.1 核心概念回顾

Linux 调度器函数族为进程调度控制提供了精细化的管理能力：

sched_yield: 让出当前 CPU 时间片，允许同优先级进程运行
sched_getscheduler/sched_setscheduler: 获取和设置进程调度策略
sched_getaffinity/sched_setaffinity: 获取和设置 CPU 亲和性
sched_get_priority_min/sched_get_priority_max: 获取调度策略优先级范围
sched_rr_get_interval: 获取轮转调度时间片长度
sched_getcpu: 获取当前运行的 CPU 编号
prlimit64: 获取和设置进程资源限制

7.2 调度策略详解

五种主要调度策略：

SCHED_OTHER: 默认分时调度（CFS），适合普通应用
SCHED_FIFO: 实时先进先出，高优先级进程持续运行
SCHED_RR: 实时轮转调度，相同优先级进程时间片轮转
SCHED_BATCH: 批处理优化，减少上下文切换
SCHED_IDLE: 空闲任务，只在系统空闲时运行

7.3 性能优化要点

调度策略选择：

普通应用：使用 SCHED_OTHER（默认）
实时系统：使用 SCHED_FIFO 或 SCHED_RR
批处理任务：使用 SCHED_BATCH
后台任务：使用 SCHED_IDLE

CPU 亲和性优化：

减少 CPU 缓存失效
提高缓存命中率
降低上下文切换开销
改善 NUMA 访问模式

7.4 安全和权限管理

权限要求：

普通用户：可使用 SCHED_OTHER/SCHED_BATCH/SCHED_IDLE
root 用户：可使用所有调度策略
CAP_SYS_NICE：允许修改调度策略和优先级
CAP_SYS_ADMIN：允许使用 prlimit64 设置资源限制

安全考虑：

// 权限检查示例
int check_scheduling_permissions() {
    if (geteuid() == 0) {
        return 1;  // root 权限
    }
    
    // 检查 CAP_SYS_NICE 能力
    // 使用 libcap-ng 库进行能力检查
    return 0;  // 普通权限
}

7.5 实际应用场景

适用场景：

实时系统：音视频处理、工业控制（SCHED_FIFO/SCHED_RR）
高性能计算：科学计算、数据分析（CPU 亲和性绑定）
服务器应用：Web 服务、数据库（合理的调度策略）
系统监控：性能分析、资源管理（sched_getcpu）
容器技术：资源限制、进程隔离（prlimit64）

7.6 最佳实践

调度策略设置：

// 安全的调度策略设置
int safe_set_scheduler(pid_t pid, int policy, int priority) {
    struct sched_param param;
    
    // 验证参数
    if (priority < sched_get_priority_min(policy) || 
        priority > sched_get_priority_max(policy)) {
        errno = EINVAL;
        return -1;
    }
    
    param.sched_priority = priority;
    
    // 设置调度策略
    int result = sched_setscheduler(pid, policy, &param);
    
    if (result == -1) {
        switch (errno) {
            case EPERM:
                fprintf(stderr, "权限不足，需要适当权限\n");
                break;
            case EINVAL:
                fprintf(stderr, "无效的策略或优先级\n");
                break;
            case ESRCH:
                fprintf(stderr, "进程不存在\n");
                break;
        }
    }
    
    return result;
}

CPU 亲和性管理：

// 智能 CPU 绑定
int smart_cpu_binding(pid_t pid, int cpu_count) {
    cpu_set_t cpu_set;
    CPU_ZERO(&cpu_set);
    
    // 根据系统 CPU 数量智能绑定
    int available_cpus = sysconf(_SC_NPROCESSORS_ONLN);
    int bind_count = (cpu_count < available_cpus) ? cpu_count : available_cpus;
    
    for (int i = 0; i < bind_count; i++) {
        CPU_SET(i, &cpu_set);
    }
    
    return sched_setaffinity(pid, sizeof(cpu_set), &cpu_set);
}

资源限制控制：

// 安全的资源限制设置
int safe_set_resource_limit(int resource, rlim_t soft_limit, rlim_t hard_limit) {
    struct rlimit64 limit;
    limit.rlim_cur = soft_limit;
    limit.rlim_max = hard_limit;
    
    int result = prlimit64(0, resource, &limit, NULL);
    
    if (result == -1) {
        switch (errno) {
            case EPERM:
                fprintf(stderr, "权限不足，需要 CAP_SYS_RESOURCE 能力\n");
                break;
            case EINVAL:
                fprintf(stderr, "无效的资源类型或限制值\n");
                break;
        }
    }
    
    return result;
}

7.7 学习建议

掌握路径：

入门阶段：理解基本调度概念和 sched_yield 使用
进阶阶段：掌握调度策略和 CPU 亲和性
高级阶段：精通资源限制和性能优化
专家阶段：实现复杂的调度控制系统

实践要点：

从简单示例开始逐步复杂化
重点关注权限管理和错误处理
实际项目中验证调度效果
持续关注实时系统发展

这些调度器函数是 Linux 系统编程的重要组成部分，正确掌握和使用它们对于开发高性能、实时性要求高的应用程序至关重要。通过系统的学习和实践，开发者可以充分发挥 Linux 调度系统的强大功能。

发表在 linux文章 | 留下评论

mq_unlink系统调用及示例

发表于2025-08-05由麦芽爸

mq_unlink函数详解

1. 函数介绍

mq_unlink函数是Linux系统中用于删除POSIX消息队列的函数。可以把mq_unlink想象成一个”消息队列删除器”，它能够从系统中移除指定名称的消息队列。

POSIX消息队列是进程间通信（IPC）的一种机制，允许不同进程通过队列发送和接收消息。mq_unlink的作用类似于文件系统的unlink函数，它删除消息队列的名称，但不会立即销毁队列本身。只有当所有打开该队列的进程都关闭了队列描述符后，队列才会被真正销毁。

使用场景：

进程间通信系统的清理
服务器程序的资源管理
系统维护和清理脚本
消息队列生命周期管理

2. 函数原型

#include <mqueue.h>

int mq_unlink(const char *name);

3. 功能

mq_unlink函数的主要功能是删除指定名称的POSIX消息队列。它从系统中移除队列的名称，使得后续无法通过该名称打开队列，但已打开的队列描述符仍然有效。

4. 参数

name: 消息队列名称
- 类型：const char*
- 含义：要删除的消息队列名称
- 名称必须以’/’开头，如”/my_queue”

5. 返回值

成功: 返回0
失败: 返回-1，并设置errno错误码
- EACCES：权限不足
- ENOENT：指定名称的消息队列不存在
- EINVAL：名称无效

6. 相似函数或关联函数

mq_open(): 打开或创建消息队列
mq_close(): 关闭消息队列描述符
mq_send(): 发送消息
mq_receive(): 接收消息
mq_getattr(): 获取队列属性
mq_setattr(): 设置队列属性
unlink(): 删除文件

7. 示例代码

示例1：基础mq_unlink使用 – 简单队列删除

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <mqueue.h>
#include <fcntl.h>
#include <sys/stat.h>
#include <string.h>
#include <errno.h>

// 创建消息队列
mqd_t create_message_queue(const char* name) {
    struct mq_attr attr = {
        .mq_flags = 0,
        .mq_maxmsg = 10,
        .mq_msgsize = 256,
        .mq_curmsgs = 0
    };
    
    mqd_t mq = mq_open(name, O_CREAT | O_RDWR, 0644, &attr);
    if (mq == (mqd_t)-1) {
        perror("创建消息队列失败");
        return -1;
    }
    
    printf("创建消息队列: %s (描述符: %d)\n", name, (int)mq);
    return mq;
}

// 显示消息队列属性
void show_queue_attributes(mqd_t mq, const char* name) {
    struct mq_attr attr;
    if (mq_getattr(mq, &attr) == -1) {
        perror("获取队列属性失败");
        return;
    }
    
    printf("队列 %s 属性:\n", name);
    printf("  最大消息数: %ld\n", attr.mq_maxmsg);
    printf("  最大消息大小: %ld\n", attr.mq_msgsize);
    printf("  当前消息数: %ld\n", attr.mq_curmsgs);
    printf("  标志: %ld\n", attr.mq_flags);
}

int main() {
    printf("=== 基础mq_unlink使用示例 ===\n");
    
    const char* queue_name = "/test_queue";
    
    // 创建消息队列
    printf("1. 创建消息队列:\n");
    mqd_t mq = create_message_queue(queue_name);
    if (mq == -1) {
        exit(EXIT_FAILURE);
    }
    
    show_queue_attributes(mq, queue_name);
    
    // 发送一些测试消息
    printf("\n2. 发送测试消息:\n");
    const char* messages[] = {
        "第一条测试消息",
        "第二条测试消息",
        "第三条测试消息"
    };
    
    for (int i = 0; i < 3; i++) {
        if (mq_send(mq, messages[i], strlen(messages[i]), 0) == -1) {
            perror("发送消息失败");
        } else {
            printf("发送消息: %s\n", messages[i]);
        }
    }
    
    show_queue_attributes(mq, queue_name);
    
    // 使用mq_unlink删除队列名称
    printf("\n3. 使用mq_unlink删除队列名称:\n");
    if (mq_unlink(queue_name) == 0) {
        printf("✓ 成功删除队列名称: %s\n", queue_name);
        printf("注意: 队列本身仍然存在，因为还有打开的描述符\n");
    } else {
        printf("✗ 删除队列名称失败: %s\n", strerror(errno));
    }
    
    // 验证队列名称已被删除
    printf("\n4. 验证队列名称删除效果:\n");
    mqd_t mq2 = mq_open(queue_name, O_RDONLY);
    if (mq2 == -1) {
        printf("✓ 无法通过名称重新打开队列 (预期行为): %s\n", strerror(errno));
    } else {
        printf("✗ 仍然可以通过名称打开队列\n");
        mq_close(mq2);
    }
    
    // 原有描述符仍然可以使用
    printf("\n5. 原有描述符仍然有效:\n");
    char buffer[256];
    ssize_t bytes_received;
    unsigned int priority;
    
    while ((bytes_received = mq_receive(mq, buffer, sizeof(buffer), &priority)) > 0) {
        buffer[bytes_received] = '\0';
        printf("接收到消息: %s (优先级: %u)\n", buffer, priority);
    }
    
    // 关闭队列描述符（此时队列才会被真正销毁）
    printf("\n6. 关闭队列描述符:\n");
    if (mq_close(mq) == 0) {
        printf("✓ 队列描述符已关闭，队列被真正销毁\n");
    } else {
        perror("关闭队列描述符失败");
    }
    
    printf("\n=== 基础mq_unlink演示完成 ===\n");
    
    return 0;
}

示例2：多个进程共享队列的删除管理

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <mqueue.h>
#include <fcntl.h>
#include <sys/stat.h>
#include <sys/wait.h>
#include <string.h>
#include <errno.h>
#include <time.h>

#define MAX_MESSAGES 5
#define MESSAGE_SIZE 256

// 生产者进程
void producer_process(const char* queue_name, int producer_id) {
    printf("生产者 %d 启动\n", producer_id);
    
    // 打开已存在的队列
    mqd_t mq = mq_open(queue_name, O_WRONLY);
    if (mq == (mqd_t)-1) {
        perror("生产者打开队列失败");
        exit(EXIT_FAILURE);
    }
    
    srand(time(NULL) + producer_id);
    
    // 发送消息
    for (int i = 0; i < MAX_MESSAGES; i++) {
        char message[MESSAGE_SIZE];
        snprintf(message, sizeof(message), "生产者%d的消息%d", producer_id, i + 1);
        
        // 随机优先级
        unsigned int priority = rand() % 10;
        
        if (mq_send(mq, message, strlen(message), priority) == -1) {
            perror("发送消息失败");
        } else {
            printf("生产者 %d 发送: %s (优先级: %u)\n", producer_id, message, priority);
        }
        
        sleep(1);  // 模拟处理时间
    }
    
    printf("生产者 %d 完成\n", producer_id);
    mq_close(mq);
}

// 消费者进程
void consumer_process(const char* queue_name, int consumer_id) {
    printf("消费者 %d 启动\n", consumer_id);
    
    // 打开已存在的队列
    mqd_t mq = mq_open(queue_name, O_RDONLY);
    if (mq == (mqd_t)-1) {
        perror("消费者打开队列失败");
        exit(EXIT_FAILURE);
    }
    
    // 接收消息
    char buffer[MESSAGE_SIZE];
    ssize_t bytes_received;
    unsigned int priority;
    int message_count = 0;
    
    while (message_count < MAX_MESSAGES * 2) {  // 期望接收所有生产者的消息
        bytes_received = mq_receive(mq, buffer, sizeof(buffer), &priority);
        if (bytes_received > 0) {
            buffer[bytes_received] = '\0';
            printf("消费者 %d 接收: %s (优先级: %u)\n", consumer_id, buffer, priority);
            message_count++;
        } else if (errno == EAGAIN) {
            // 非阻塞模式下没有消息
            printf("消费者 %d: 暂无消息\n", consumer_id);
            sleep(1);
        } else {
            perror("接收消息失败");
            break;
        }
    }
    
    printf("消费者 %d 完成，接收 %d 条消息\n", consumer_id, message_count);
    mq_close(mq);
}

// 管理进程
void manager_process(const char* queue_name) {
    printf("管理进程启动\n");
    
    // 创建消息队列
    struct mq_attr attr = {
        .mq_flags = 0,
        .mq_maxmsg = 20,
        .mq_msgsize = MESSAGE_SIZE,
        .mq_curmsgs = 0
    };
    
    mqd_t mq = mq_open(queue_name, O_CREAT | O_RDWR, 0644, &attr);
    if (mq == (mqd_t)-1) {
        perror("管理进程创建队列失败");
        exit(EXIT_FAILURE);
    }
    
    printf("管理进程创建队列: %s\n", queue_name);
    
    // 启动生产者和消费者进程
    pid_t producers[2], consumers[2];
    
    // 启动生产者
    for (int i = 0; i < 2; i++) {
        producers[i] = fork();
        if (producers[i] == 0) {
            producer_process(queue_name, i + 1);
            exit(EXIT_SUCCESS);
        }
    }
    
    // 启动消费者
    for (int i = 0; i < 2; i++) {
        consumers[i] = fork();
        if (consumers[i] == 0) {
            consumer_process(queue_name, i + 1);
            exit(EXIT_SUCCESS);
        }
    }
    
    // 等待生产者完成
    printf("管理进程等待生产者完成...\n");
    for (int i = 0; i < 2; i++) {
        waitpid(producers[i], NULL, 0);
    }
    
    printf("所有生产者已完成\n");
    
    // 模拟一段时间让消费者处理完消息
    sleep(3);
    
    // 删除队列名称（但队列仍存在，因为消费者还在使用）
    printf("管理进程删除队列名称...\n");
    if (mq_unlink(queue_name) == 0) {
        printf("✓ 队列名称已删除，但队列仍存在（消费者仍在使用）\n");
    } else {
        printf("✗ 删除队列名称失败: %s\n", strerror(errno));
    }
    
    // 等待消费者完成
    printf("管理进程等待消费者完成...\n");
    for (int i = 0; i < 2; i++) {
        waitpid(consumers[i], NULL, 0);
    }
    
    printf("所有消费者已完成\n");
    
    // 现在队列才会被真正销毁（所有描述符都已关闭）
    printf("队列已被真正销毁\n");
    mq_close(mq);
    
    printf("管理进程完成\n");
}

int main() {
    printf("=== 多进程共享队列删除管理示例 ===\n");
    
    const char* queue_name = "/shared_queue";
    
    // 启动管理进程
    pid_t manager = fork();
    if (manager == 0) {
        manager_process(queue_name);
        exit(EXIT_SUCCESS);
    }
    
    // 父进程等待管理进程完成
    waitpid(manager, NULL, 0);
    
    // 验证队列是否已被删除
    printf("\n验证队列删除效果:\n");
    mqd_t mq = mq_open(queue_name, O_RDONLY);
    if (mq == -1) {
        printf("✓ 队列已成功删除: %s\n", strerror(errno));
    } else {
        printf("✗ 队列仍然存在\n");
        mq_close(mq);
    }
    
    printf("\n=== 多进程队列管理演示完成 ===\n");
    
    return 0;
}

发表在 linux文章 | 留下评论

mq_timedsend系统调用及示例

发表于2025-08-05由麦芽爸

mq_timedsend函数详解

1. 函数介绍

mq_timedsend函数是Linux系统中用于在指定时间内发送消息到POSIX消息队列的函数。它是mq_send函数的增强版本，支持超时控制。可以把mq_timedsend想象成一个”限时消息发送器”，它能够在指定的时间内尝试发送消息，如果超时则返回错误。

这个函数特别适用于需要控制发送等待时间的场景，比如实时系统或需要避免无限期阻塞的应用程序。

使用场景：

实时系统的消息发送
避免无限期阻塞的发送操作
超时控制的网络应用
高可用性系统中的消息处理

2. 函数原型

#include <mqueue.h>
#include <time.h>

int mq_timedsend(mqd_t mqdes, const char *msg_ptr, size_t msg_len, 
                 unsigned int msg_prio, const struct timespec *abs_timeout);

3. 功能

mq_timedsend函数的主要功能是在指定的绝对超时时间内发送消息到消息队列。如果队列已满且在超时时间内无法发送，则返回错误。

4. 参数

mqdes: 消息队列描述符
- 类型：mqd_t
- 含义：已打开的消息队列描述符
msg_ptr: 消息内容指针
- 类型：const char*
- 含义：指向要发送的消息内容
msg_len: 消息长度
- 类型：size_t
- 含义：消息内容的字节数
msg_prio: 消息优先级
- 类型：unsigned int
- 含义：消息的优先级（0-32767）
abs_timeout: 绝对超时时间
- 类型：const struct timespec*
- 含义：绝对超时时间（基于CLOCK_REALTIME）

5. 返回值

成功: 返回0
失败: 返回-1，并设置errno错误码
- EAGAIN：超时时间内无法发送消息
- EBADF：无效的消息队列描述符
- EINTR：被信号中断
- EINVAL：参数无效
- EMSGSIZE：消息大小超过队列限制
- ETIMEDOUT：超时

6. 相似函数或关联函数

mq_send(): 发送消息（阻塞）
mq_receive(): 接收消息
mq_timedreceive(): 限时接收消息
clock_gettime(): 获取当前时间
pthread_cond_timedwait(): 限时条件等待

7. 示例代码

示例1：基础mq_timedsend使用 – 超时控制发送

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <mqueue.h>
#include <fcntl.h>
#include <sys/stat.h>
#include <string.h>
#include <errno.h>
#include <time.h>

// 创建带限制的消息队列
mqd_t create_limited_queue(const char* name) {
    struct mq_attr attr = {
        .mq_flags = 0,
        .mq_maxmsg = 2,      // 很小的队列容量
        .mq_msgsize = 128,
        .mq_curmsgs = 0
    };
    
    mqd_t mq = mq_open(name, O_CREAT | O_RDWR, 0644, &attr);
    if (mq == (mqd_t)-1) {
        perror("创建消息队列失败");
        return -1;
    }
    
    printf("创建限制队列: %s (容量: %ld)\n", name, attr.mq_maxmsg);
    return mq;
}

// 计算绝对超时时间
int calculate_absolute_timeout(struct timespec* abs_timeout, int seconds) {
    if (clock_gettime(CLOCK_REALTIME, abs_timeout) == -1) {
        perror("获取当前时间失败");
        return -1;
    }
    
    abs_timeout->tv_sec += seconds;
    return 0;
}

int main() {
    printf("=== 基础mq_timedsend使用示例 ===\n");
    
    const char* queue_name = "/timed_queue";
    
    // 创建限制队列
    mqd_t mq = create_limited_queue(queue_name);
    if (mq == -1) {
        exit(EXIT_FAILURE);
    }
    
    // 填满队列
    printf("1. 填满队列:\n");
    for (int i = 0; i < 2; i++) {
        char message[64];
        snprintf(message, sizeof(message), "填充消息 %d", i + 1);
        
        if (mq_send(mq, message, strlen(message), 0) == -1) {
            perror("发送填充消息失败");
        } else {
            printf("发送: %s\n", message);
        }
    }
    
    // 显示队列状态
    struct mq_attr attr;
    if (mq_getattr(mq, &attr) == 0) {
        printf("队列当前消息数: %ld/%ld\n", attr.mq_curmsgs, attr.mq_maxmsg);
    }
    
    // 演示mq_timedsend超时
    printf("\n2. 演示mq_timedsend超时:\n");
    
    struct timespec abs_timeout;
    if (calculate_absolute_timeout(&abs_timeout, 3) == -1) {  // 3秒超时
        mq_close(mq);
        mq_unlink(queue_name);
        exit(EXIT_FAILURE);
    }
    
    char test_message[] = "超时测试消息";
    printf("尝试发送消息（队列已满，3秒超时）:\n");
    
    clock_t start_time = clock();
    int result = mq_timedsend(mq, test_message, strlen(test_message), 0, &abs_timeout);
    clock_t end_time = clock();
    
    double elapsed_time = ((double)(end_time - start_time)) / CLOCKS_PER_SEC;
    
    if (result == 0) {
        printf("✓ 消息发送成功\n");
    } else {
        if (errno == ETIMEDOUT) {
            printf("✗ 发送超时 (耗时: %.2f 秒)\n", elapsed_time);
        } else if (errno == EAGAIN) {
            printf("✗ 队列满，无法发送: %s\n", strerror(errno));
        } else {
            printf("✗ 发送失败: %s\n", strerror(errno));
        }
    }
    
    // 演示成功的mq_timedsend
    printf("\n3. 演示成功的mq_timedsend:\n");
    
    // 先接收一条消息，为发送腾出空间
    char buffer[128];
    ssize_t bytes_received = mq_receive(mq, buffer, sizeof(buffer), NULL);
    if (bytes_received > 0) {
        buffer[bytes_received] = '\0';
        printf("接收消息为发送腾出空间: %s\n", buffer);
    }
    
    // 现在队列有空间了
    if (calculate_absolute_timeout(&abs_timeout, 5) == 0) {  // 5秒超时
        char success_message[] = "成功发送的消息";
        printf("发送消息（队列有空间）:\n");
        
        if (mq_timedsend(mq, success_message, strlen(success_message), 5, &abs_timeout) == 0) {
            printf("✓ 消息发送成功 (优先级: 5)\n");
        } else {
            printf("✗ 发送失败: %s\n", strerror(errno));
        }
    }
    
    // 演示不同超时时间的效果
    printf("\n4. 不同超时时间演示:\n");
    
    // 立即超时（过去的时间）
    struct timespec past_time = {0, 0};
    char immediate_message[] = "立即超时消息";
    printf("使用过去时间作为超时（立即返回）:\n");
    if (mq_timedsend(mq, immediate_message, strlen(immediate_message), 0, &past_time) == -1) {
        if (errno == ETIMEDOUT) {
            printf("✓ 立即超时 (预期行为)\n");
        } else {
            printf("✗ 其他错误: %s\n", strerror(errno));
        }
    }
    
    // 长时间超时
    if (calculate_absolute_timeout(&abs_timeout, 10) == 0) {  // 10秒超时
        char long_timeout_message[] = "长超时消息";
        printf("使用长超时时间:\n");
        if (mq_timedsend(mq, long_timeout_message, strlen(long_timeout_message), 1, &abs_timeout) == 0) {
            printf("✓ 长超时发送成功\n");
        } else {
            printf("✗ 长超时发送失败: %s\n", strerror(errno));
        }
    }
    
    // 清理资源
    printf("\n5. 清理资源:\n");
    mq_close(mq);
    mq_unlink(queue_name);
    printf("队列已清理\n");
    
    printf("\n=== 基础mq_timedsend演示完成 ===\n");
    
    return 0;
}

示例2：实时系统中的超时消息发送

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <mqueue.h>
#include <fcntl.h>
#include <sys/stat.h>
#include <string.h>
#include <errno.h>
#include <time.h>
#include <signal.h>

#define MAX_MESSAGES 10
#define MESSAGE_SIZE 256

volatile sig_atomic_t stop_flag = 0;

// 信号处理函数
void signal_handler(int sig) {
    printf("收到信号 %d，准备停止...\n", sig);
    stop_flag = 1;
}

// 创建实时消息队列
mqd_t create_realtime_queue(const char* name) {
    struct mq_attr attr = {
        .mq_flags = 0,
        .mq_maxmsg = 5,
        .mq_msgsize = MESSAGE_SIZE,
        .mq_curmsgs = 0
    };
    
    mqd_t mq = mq_open(name, O_CREAT | O_RDWR, 0644, &attr);
    if (mq == (mqd_t)-1) {
        perror("创建实时队列失败");
        return -1;
    }
    
    printf("创建实时队列: %s\n", name);
    return mq;
}

// 计算相对超时时间
int calculate_relative_timeout(struct timespec* abs_timeout, int milliseconds) {
    if (clock_gettime(CLOCK_REALTIME, abs_timeout) == -1) {
        perror("获取当前时间失败");
        return -1;
    }
    
    // 转换毫秒到秒和纳秒
    long seconds = milliseconds / 1000;
    long nanoseconds = (milliseconds % 1000) * 1000000;
    
    abs_timeout->tv_sec += seconds;
    abs_timeout->tv_nsec += nanoseconds;
    
    // 处理纳秒溢出
    if (abs_timeout->tv_nsec >= 1000000000) {
        abs_timeout->tv_sec++;
        abs_timeout->tv_nsec -= 1000000000;
    }
    
    return 0;
}

// 实时消息发送器
void realtime_message_sender(mqd_t mq, const char* sender_name) {
    printf("实时发送器 %s 启动\n", sender_name);
    
    srand(time(NULL));
    
    int message_count = 0;
    while (!stop_flag && message_count < MAX_MESSAGES) {
        char message[MESSAGE_SIZE];
        snprintf(message, sizeof(message), "%s: 实时消息 %d", sender_name, message_count + 1);
        
        // 随机超时时间（10-100毫秒）
        int timeout_ms = 10 + rand() % 91;
        
        struct timespec abs_timeout;
        if (calculate_relative_timeout(&abs_timeout, timeout_ms) == -1) {
            continue;
        }
        
        // 使用mq_timedsend发送消息
        unsigned int priority = rand() % 10;
        int result = mq_timedsend(mq, message, strlen(message), priority, &abs_timeout);
        
        if (result == 0) {
            printf("[%s] 发送成功: %s (优先级: %u, 超时: %dms)\n", 
                   sender_name, message, priority, timeout_ms);
        } else {
            if (errno == ETIMEDOUT) {
                printf("[%s] 发送超时: %s (超时: %dms)\n", 
                       sender_name, message, timeout_ms);
            } else if (errno == EAGAIN) {
                printf("[%s] 队列满，发送失败: %s\n", sender_name, message);
            } else {
                printf("[%s] 发送错误: %s (%s)\n", 
                       sender_name, message, strerror(errno));
            }
        }
        
        message_count++;
        usleep(500000);  // 0.5秒间隔
    }
    
    printf("实时发送器 %s 完成\n", sender_name);
}

// 消息接收器
void message_receiver(mqd_t mq, const char* receiver_name) {
    printf("消息接收器 %s 启动\n", receiver_name);
    
    char buffer[MESSAGE_SIZE];
    ssize_t bytes_received;
    unsigned int priority;
    int received_count = 0;
    
    while (!stop_flag && received_count < MAX_MESSAGES * 2) {
        struct timespec abs_timeout;
        if (calculate_relative_timeout(&abs_timeout, 2000) == -1) {  // 2秒超时
            continue;
        }
        
        bytes_received = mq_timedreceive(mq, buffer, sizeof(buffer), &priority, &abs_timeout);
        
        if (bytes_received > 0) {
            buffer[bytes_received] = '\0';
            printf("[%s] 接收: %s (优先级: %u)\n", receiver_name, buffer, priority);
            received_count++;
        } else if (errno == ETIMEDOUT) {
            printf("[%s] 接收超时\n", receiver_name);
        } else if (errno == EAGAIN) {
            printf("[%s] 暂无消息\n", receiver_name);
            usleep(100000);  // 0.1秒后重试
        } else {
            printf("[%s] 接收错误: %s\n", receiver_name, strerror(errno));
            break;
        }
    }
    
    printf("消息接收器 %s 完成，接收 %d 条消息\n", receiver_name, received_count);
}

int main() {
    printf("=== 实时系统超时消息发送示例 ===\n");
    
    const char* queue_name = "/realtime_queue";
    
    // 设置信号处理
    signal(SIGINT, signal_handler);
    signal(SIGTERM, signal_handler);
    
    // 创建实时队列
    mqd_t mq = create_realtime_queue(queue_name);
    if (mq == -1) {
        exit(EXIT_FAILURE);
    }
    
    // 启动发送器和接收器
    pid_t sender1 = fork();
    if (sender1 == 0) {
        realtime_message_sender(mq, "发送器1");
        exit(EXIT_SUCCESS);
    }
    
    pid_t sender2 = fork();
    if (sender2 == 0) {
        realtime_message_sender(mq, "发送器2");
        exit(EXIT_SUCCESS);
    }
    
    pid_t receiver = fork();
    if (receiver == 0) {
        message_receiver(mq, "接收器");
        exit(EXIT_SUCCESS);
    }
    
    // 主进程等待一段时间后发送停止信号
    printf("系统运行中... 按Ctrl+C停止或等待30秒\n");
    
    int elapsed = 0;
    while (elapsed < 30 && !stop_flag) {
        sleep(1);
        elapsed++;
        
        // 定期显示队列状态
        if (elapsed % 5 == 0) {
            struct mq_attr attr;
            if (mq_getattr(mq, &attr) == 0) {
                printf("队列状态: %ld/%ld 消息\n", attr.mq_curmsgs, attr.mq_maxmsg);
            }
        }
    }
    
    // 发送停止信号
    stop_flag = 1;
    printf("发送停止信号...\n");
    
    // 等待所有子进程完成
    waitpid(sender1, NULL, 0);
    waitpid(sender2, NULL, 0);
    waitpid(receiver, NULL, 0);
    
    // 清理资源
    mq_close(mq);
    mq_unlink(queue_name);
    printf("系统已停止，资源已清理\n");
    
    printf("\n=== 实时系统演示完成 ===\n");
    
    return 0;
}

发表在 linux文章 | 留下评论

mq_timedreceive系统调用及示例

发表于2025-08-05由麦芽爸

mq_timedreceive函数详解

1. 函数介绍

mq_timedreceive函数是Linux系统中用于在指定时间内从POSIX消息队列接收消息的函数。它是mq_receive函数的增强版本，支持超时控制。可以把mq_timedreceive想象成一个”限时消息接收器”，它能够在指定的时间内尝试接收消息，如果超时则返回错误。

这个函数特别适用于需要控制接收等待时间的场景，比如实时系统、服务器应用或需要避免无限期阻塞的程序。

使用场景：

实时系统的消息接收
服务器程序的请求处理
避免无限期阻塞的接收操作
超时控制的网络应用
高可用性系统中的消息处理

2. 函数原型

#include <mqueue.h>
#include <time.h>

ssize_t mq_timedreceive(mqd_t mqdes, char *msg_ptr, size_t msg_len, 
                        unsigned int *msg_prio, const struct timespec *abs_timeout);

3. 功能

mq_timedreceive函数的主要功能是在指定的绝对超时时间内从消息队列接收消息。如果队列为空且在超时时间内没有消息到达，则返回错误。

4. 参数

mqdes: 消息队列描述符
- 类型：mqd_t
- 含义：已打开的消息队列描述符
msg_ptr: 消息缓冲区指针
- 类型：char*
- 含义：指向存储接收消息的缓冲区
msg_len: 缓冲区大小
- 类型：size_t
- 含义：消息缓冲区的大小（字节数）
msg_prio: 消息优先级指针
- 类型：unsigned int*
- 含义：指向存储消息优先级的变量（可为NULL）
abs_timeout: 绝对超时时间
- 类型：const struct timespec*
- 含义：绝对超时时间（基于CLOCK_REALTIME）

5. 返回值

成功: 返回接收到的消息字节数
失败: 返回-1，并设置errno错误码
- EAGAIN：超时时间内没有消息可接收
- EBADF：无效的消息队列描述符
- EINTR：被信号中断
- EINVAL：参数无效
- EMSGSIZE：缓冲区太小
- ETIMEDOUT：超时

6. 相似函数或关联函数

mq_receive(): 接收消息（阻塞）
mq_send(): 发送消息
mq_timedsend(): 限时发送消息
clock_gettime(): 获取当前时间
pthread_cond_timedwait(): 限时条件等待

7. 示例代码

示例1：基础mq_timedreceive使用 – 超时控制接收

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <mqueue.h>
#include <fcntl.h>
#include <sys/stat.h>
#include <string.h>
#include <errno.h>
#include <time.h>

// 创建消息队列
mqd_t create_test_queue(const char* name) {
    struct mq_attr attr = {
        .mq_flags = 0,
        .mq_maxmsg = 10,
        .mq_msgsize = 256,
        .mq_curmsgs = 0
    };
    
    mqd_t mq = mq_open(name, O_CREAT | O_RDWR, 0644, &attr);
    if (mq == (mqd_t)-1) {
        perror("创建消息队列失败");
        return -1;
    }
    
    printf("创建测试队列: %s\n", name);
    return mq;
}

// 计算绝对超时时间
int calculate_absolute_timeout(struct timespec* abs_timeout, int seconds) {
    if (clock_gettime(CLOCK_REALTIME, abs_timeout) == -1) {
        perror("获取当前时间失败");
        return -1;
    }
    
    abs_timeout->tv_sec += seconds;
    return 0;
}

int main() {
    printf("=== 基础mq_timedreceive使用示例 ===\n");
    
    const char* queue_name = "/receive_test_queue";
    
    // 创建测试队列
    mqd_t mq = create_test_queue(queue_name);
    if (mq == -1) {
        exit(EXIT_FAILURE);
    }
    
    // 演示mq_timedreceive超时（空队列）
    printf("1. 演示空队列超时接收:\n");
    
    struct timespec abs_timeout;
    if (calculate_absolute_timeout(&abs_timeout, 3) == -1) {  // 3秒超时
        mq_close(mq);
        mq_unlink(queue_name);
        exit(EXIT_FAILURE);
    }
    
    char buffer[256];
    unsigned int priority;
    
    printf("从空队列接收消息（3秒超时）:\n");
    clock_t start_time = clock();
    ssize_t result = mq_timedreceive(mq, buffer, sizeof(buffer), &priority, &abs_timeout);
    clock_t end_time = clock();
    
    double elapsed_time = ((double)(end_time - start_time)) / CLOCKS_PER_SEC;
    
    if (result == -1) {
        if (errno == ETIMEDOUT) {
            printf("✗ 接收超时 (耗时: %.2f 秒)\n", elapsed_time);
        } else if (errno == EAGAIN) {
            printf("✗ 暂无消息: %s\n", strerror(errno));
        } else {
            printf("✗ 接收失败: %s\n", strerror(errno));
        }
    } else {
        buffer[result] = '\0';
        printf("✓ 接收到消息: %s (优先级: %u)\n", buffer, priority);
    }
    
    // 发送一些测试消息
    printf("\n2. 发送测试消息:\n");
    const char* messages[] = {
        "第一条测试消息",
        "第二条测试消息",
        "第三条测试消息"
    };
    
    for (int i = 0; i < 3; i++) {
        unsigned int priorities[] = {1, 5, 3};
        if (mq_send(mq, messages[i], strlen(messages[i]), priorities[i]) == -1) {
            perror("发送消息失败");
        } else {
            printf("发送: %s (优先级: %u)\n", messages[i], priorities[i]);
        }
    }
    
    // 演示成功的mq_timedreceive
    printf("\n3. 演示成功接收消息:\n");
    
    if (calculate_absolute_timeout(&abs_timeout, 5) == 0) {  // 5秒超时
        printf("接收消息（队列有消息）:\n");
        
        // 接收所有消息
        while (1) {
            ssize_t bytes_received = mq_timedreceive(mq, buffer, sizeof(buffer), &priority, &abs_timeout);
            if (bytes_received > 0) {
                buffer[bytes_received] = '\0';
                printf("✓ 接收到消息: %s (优先级: %u)\n", buffer, priority);
            } else {
                if (errno == ETIMEDOUT || errno == EAGAIN) {
                    printf("无更多消息可接收\n");
                    break;
                } else {
                    printf("接收失败: %s\n", strerror(errno));
                    break;
                }
            }
        }
    }
    
    // 演示缓冲区大小处理
    printf("\n4. 缓冲区大小处理演示:\n");
    
    // 发送一条长消息
    char long_message[200];
    memset(long_message, 'A', sizeof(long_message) - 1);
    long_message[sizeof(long_message) - 1] = '\0';
    
    if (mq_send(mq, long_message, strlen(long_message), 0) == 0) {
        printf("发送长消息成功\n");
        
        // 使用过小的缓冲区接收
        char small_buffer[50];
        if (calculate_absolute_timeout(&abs_timeout, 2) == 0) {
            ssize_t bytes_received = mq_timedreceive(mq, small_buffer, sizeof(small_buffer), NULL, &abs_timeout);
            if (bytes_received == -1) {
                if (errno == EMSGSIZE) {
                    printf("✗ 缓冲区太小 (预期错误)\n");
                } else {
                    printf("✗ 其他错误: %s\n", strerror(errno));
                }
            } else {
                small_buffer[bytes_received] = '\0';
                printf("✓ 接收到截断消息: %s (%zd 字节)\n", small_buffer, bytes_received);
            }
        }
        
        // 使用足够大的缓冲区接收
        char large_buffer[256];
        if (calculate_absolute_timeout(&abs_timeout, 2) == 0) {
            ssize_t bytes_received = mq_timedreceive(mq, large_buffer, sizeof(large_buffer), NULL, &abs_timeout);
            if (bytes_received > 0) {
                large_buffer[bytes_received] = '\0';
                printf("✓ 接收到完整消息 (%zd 字节)\n", bytes_received);
            }
        }
    }
    
    // 演示优先级接收
    printf("\n5. 优先级接收演示:\n");
    
    // 发送不同优先级的消息
    struct {
        const char* message;
        unsigned int priority;
    } priority_messages[] = {
        {"低优先级消息", 1},
        {"中优先级消息", 5},
        {"高优先级消息", 10},
        {"最高优先级消息", 15}
    };
    
    for (int i = 0; i < 4; i++) {
        if (mq_send(mq, priority_messages[i].message, strlen(priority_messages[i].message), 
                   priority_messages[i].priority) == 0) {
            printf("发送: %s (优先级: %u)\n", priority_messages[i].message, priority_messages[i].priority);
        }
    }
    
    // 接收消息（应该按优先级顺序接收）
    printf("按优先级顺序接收消息:\n");
    if (calculate_absolute_timeout(&abs_timeout, 3) == 0) {
        for (int i = 0; i < 4; i++) {
            ssize_t bytes_received = mq_timedreceive(mq, buffer, sizeof(buffer), &priority, &abs_timeout);
            if (bytes_received > 0) {
                buffer[bytes_received] = '\0';
                printf("接收: %s (优先级: %u)\n", buffer, priority);
            }
        }
    }
    
    // 清理资源
    printf("\n6. 清理资源:\n");
    mq_close(mq);
    mq_unlink(queue_name);
    printf("队列已清理\n");
    
    printf("\n=== 基础mq_timedreceive演示完成 ===\n");
    
    return 0;
}

示例2：服务器应用中的超时消息处理

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <mqueue.h>
#include <fcntl.h>
#include <sys/stat.h>
#include <string.h>
#include <errno.h>
#include <time.h>
#include <signal.h>

#define MAX_REQUESTS 100
#define REQUEST_SIZE 512

volatile sig_atomic_t server_running = 1;

// 服务器请求结构
typedef struct {
    char client_id[32];
    char request_data[256];
    time_t timestamp;
    int request_id;
} server_request_t;

// 服务器响应结构
typedef struct {
    int request_id;
    char response_data[256];
    int status;
    time_t timestamp;
} server_response_t;

// 信号处理函数
void signal_handler(int sig) {
    printf("服务器收到停止信号 %d\n", sig);
    server_running = 0;
}

// 创建服务器队列
mqd_t create_server_queues(const char* request_queue, const char* response_queue) {
    struct mq_attr request_attr = {
        .mq_flags = 0,
        .mq_maxmsg = 20,
        .mq_msgsize = sizeof(server_request_t),
        .mq_curmsgs = 0
    };
    
    struct mq_attr response_attr = {
        .mq_flags = 0,
        .mq_maxmsg = 20,
        .mq_msgsize = sizeof(server_response_t),
        .mq_curmsgs = 0
    };
    
    // 创建请求队列
    mqd_t req_mq = mq_open(request_queue, O_CREAT | O_RDONLY, 0644, &request_attr);
    if (req_mq == (mqd_t)-1) {
        perror("创建请求队列失败");
        return -1;
    }
    
    // 创建响应队列
    mqd_t resp_mq = mq_open(response_queue, O_CREAT | O_WRONLY, 0644, &response_attr);
    if (resp_mq == (mqd_t)-1) {
        perror("创建响应队列失败");
        mq_close(req_mq);
        return -1;
    }
    
    printf("服务器队列创建成功:\n");
    printf("  请求队列: %s\n", request_queue);
    printf("  响应队列: %s\n", response_queue);
    
    return req_mq;  // 返回请求队列描述符
}

// 计算相对超时时间
int calculate_relative_timeout(struct timespec* abs_timeout, int milliseconds) {
    if (clock_gettime(CLOCK_REALTIME, abs_timeout) == -1) {
        perror("获取当前时间失败");
        return -1;
    }
    
    long seconds = milliseconds / 1000;
    long nanoseconds = (milliseconds % 1000) * 1000000;
    
    abs_timeout->tv_sec += seconds;
    abs_timeout->tv_nsec += nanoseconds;
    
    if (abs_timeout->tv_nsec >= 1000000000) {
        abs_timeout->tv_sec++;
        abs_timeout->tv_nsec -= 1000000000;
    }
    
    return 0;
}

// 处理服务器请求
void process_server_requests(mqd_t req_mq, mqd_t resp_mq) {
    printf("服务器开始处理请求...\n");
    
    int processed_requests = 0;
    time_t last_status_time = time(NULL);
    
    while (server_running) {
        struct timespec abs_timeout;
        if (calculate_relative_timeout(&abs_timeout, 1000) == -1) {  // 1秒超时
            continue;
        }
        
        server_request_t request;
        unsigned int priority;
        
        ssize_t bytes_received = mq_timedreceive(req_mq, (char*)&request, sizeof(request), &priority, &abs_timeout);
        
        if (bytes_received > 0) {
            // 处理请求
            printf("处理请求 #%d 来自客户端 %s\n", request.request_id, request.client_id);
            
            // 模拟处理时间
            usleep(100000);  // 0.1秒
            
            // 构造响应
            server_response_t response;
            response.request_id = request.request_id;
            snprintf(response.response_data, sizeof(response.response_data), 
                     "请求 #%d 已处理完成", request.request_id);
            response.status = 200;
            response.timestamp = time(NULL);
            
            // 发送响应
            if (mq_send(resp_mq, (char*)&response, sizeof(response), priority) == 0) {
                printf("响应已发送: 请求 #%d\n", request.request_id);
                processed_requests++;
            } else {
                printf("发送响应失败: %s\n", strerror(errno));
            }
        } else if (errno == ETIMEDOUT || errno == EAGAIN) {
            // 超时或无消息，继续循环
        } else {
            printf("接收请求失败: %s\n", strerror(errno));
            if (errno != EINTR) {
                break;
            }
        }
        
        // 定期显示状态
        time_t current_time = time(NULL);
        if (current_time - last_status_time >= 5) {
            printf("服务器状态: 已处理 %d 个请求\n", processed_requests);
            last_status_time = current_time;
        }
    }
    
    printf("服务器停止，总共处理 %d 个请求\n", processed_requests);
}

// 客户端模拟器
void client_simulator(const char* request_queue, const char* response_queue, int client_id) {
    printf("客户端 %d 启动\n", client_id);
    
    // 打开队列
    mqd_t req_mq = mq_open(request_queue, O_WRONLY);
    mqd_t resp_mq = mq_open(response_queue, O_RDONLY);
    
    if (req_mq == (mqd_t)-1 || resp_mq == (mqd_t)-1) {
        perror("客户端打开队列失败");
        if (req_mq != (mqd_t)-1) mq_close(req_mq);
        if (resp_mq != (mqd_t)-1) mq_close(resp_mq);
        exit(EXIT_FAILURE);
    }
    
    srand(time(NULL) + client_id);
    
    // 发送请求
    for (int i = 0; i < 5; i++) {
        server_request_t request;
        snprintf(request.client_id, sizeof(request.client_id), "Client_%d", client_id);
        snprintf(request.request_data, sizeof(request.request_data), "请求数据_%d", i + 1);
        request.timestamp = time(NULL);
        request.request_id = client_id * 100 + i + 1;
        
        unsigned int priority = rand() % 10;
        
        if (mq_send(req_mq, (char*)&request, sizeof(request), priority) == 0) {
            printf("客户端 %d 发送请求 #%d\n", client_id, request.request_id);
        } else {
            printf("客户端 %d 发送请求失败: %s\n", client_id, strerror(errno));
            continue;
        }
        
        // 等待响应
        struct timespec abs_timeout;
        if (calculate_relative_timeout(&abs_timeout, 3000) == 0) {  // 3秒超时
            server_response_t response;
            ssize_t bytes_received = mq_timedreceive(resp_mq, (char*)&response, sizeof(response), NULL, &abs_timeout);
            
            if (bytes_received > 0) {
                printf("客户端 %d 收到响应: %s (状态: %d)\n", 
                       client_id, response.response_data, response.status);
            } else if (errno == ETIMEDOUT) {
                printf("客户端 %d 等待响应超时\n", client_id);
            } else {
                printf("客户端 %d 接收响应失败: %s\n", client_id, strerror(errno));
            }
        }
        
        sleep(1);  // 客户端间隔
    }
    
    mq_close(req_mq);
    mq_close(resp_mq);
    printf("客户端 %d 完成\n", client_id);
}

int main() {
    printf("=== 服务器应用超时消息处理示例 ===\n");
    
    const char* request_queue = "/server_requests";
    const char* response_queue = "/server_responses";
    
    // 设置信号处理
    signal(SIGINT, signal_handler);
    signal(SIGTERM, signal_handler);
    
    // 启动服务器进程
    pid_t server_pid = fork();
    if (server_pid == 0) {
        // 服务器进程
        mqd_t req_mq = mq_open(request_queue, O_RDONLY);
        mqd_t resp_mq = mq_open(response_queue, O_WRONLY);
        
        if (req_mq == (mqd_t)-1 || resp_mq == (mqd_t)-1) {
            perror("服务器打开队列失败");
            exit(EXIT_FAILURE);
        }
        
        process_server_requests(req_mq, resp_mq);
        
        mq_close(req_mq);
        mq_close(resp_mq);
        exit(EXIT_SUCCESS);
    }
    
    // 等待服务器启动
    sleep(1);
    
    // 启动多个客户端进程
    pid_t clients[3];
    for (int i = 0; i < 3; i++) {
        clients[i] = fork();
        if (clients[i] == 0) {
            client_simulator(request_queue, response_queue, i + 1);
            exit(EXIT_SUCCESS);
        }
    }
    
    // 等待客户端完成
    for (int i = 0; i < 3; i++) {
        waitpid(clients[i], NULL, 0);
    }
    
    // 停止服务器
    server_running = 0;
    sleep(2);
    waitpid(server_pid, NULL, 0);
    
    // 清理队列
    mq_unlink(request_queue);
    mq_unlink(response_queue);
    
    printf("\n=== 服务器应用演示完成 ===\n");
    
    return 0;
}

编译和运行

# 编译示例（需要链接实时库）
gcc -o mq_unlink_example1 mq_unlink_example1.c -lrt
gcc -o mq_timedsend_example1 mq_timedsend_example1.c -lrt
gcc -o mq_timedsend_example2 mq_timedsend_example2.c -lrt
gcc -o mq_timedreceive_example1 mq_timedreceive_example1.c -lrt
gcc -o mq_timedreceive_example2 mq_timedreceive_example2.c -lrt

# 运行示例
./mq_unlink_example1
./mq_timedsend_example1
./mq_timedsend_example2
./mq_timedreceive_example1
./mq_timedreceive_example2

重要注意事项

权限要求: 需要适当的文件系统权限来创建和访问消息队列
名称规范: 消息队列名称必须以’/’开头
超时时间: 使用绝对时间而非相对时间
资源管理: 必须正确关闭队列描述符和删除队列
错误处理: 必须检查返回值并处理各种错误情况
线程安全: 消息队列操作是线程安全的
系统限制: 受系统消息队列数量和大小限制

最佳实践

资源清理: 及时关闭队列描述符和删除不需要的队列
超时设置: 合理设置超时时间以避免无限期等待
错误处理: 完善的错误处理和恢复机制
优先级使用: 合理使用消息优先级
缓冲区管理: 确保缓冲区大小足够
信号处理: 正确处理信号中断
性能监控: 监控队列性能和系统资源使用

通过这些示例，你可以理解POSIX消息队列相关函数在进程间通信方面的强大功能，它们为Linux系统提供了高效、可靠的IPC机制，特别适用于实时系统、服务器应用和分布式系统。

发表在 linux文章 | 留下评论

POSIX 消息队列 (mq_*) 函数详解

发表于2025-08-05由麦芽爸

POSIX 消息队列 (mq_*) 函数详解

1. 函数介绍

POSIX 消息队列是一组用于进程间通信（IPC）的函数，提供了一种可靠的、基于消息的通信机制。可以把消息队列想象成”邮局系统”——发送者将消息放入邮箱（队列），接收者从邮箱中取出消息，就像现实中的邮政服务一样。

与传统的 System V 消息队列相比，POSIX 消息队列具有更好的可移植性和更简洁的 API。它们支持优先级消息、持久化、以及通过文件系统路径名进行命名。

2. 核心函数原型

#include <mqueue.h>
#include <fcntl.h>
#include <sys/stat.h>

// 核心函数
mqd_t mq_open(const char *name, int oflag, ...);
int mq_close(mqd_t mqdes);
int mq_unlink(const char *name);
int mq_getattr(mqd_t mqdes, struct mq_attr *attr);
int mq_setattr(mqd_t mqdes, const struct mq_attr *newattr, struct mq_attr *oldattr);
int mq_send(mqd_t mqdes, const char *msg_ptr, size_t msg_len, unsigned msg_prio);
ssize_t mq_receive(mqd_t mqdes, char *msg_ptr, size_t msg_len, unsigned *msg_prio);
int mq_notify(mqd_t mqdes, const struct sigevent *notification);

3. 功能

POSIX 消息队列提供以下功能：

创建和打开消息队列
发送和接收消息
设置和获取队列属性
异步通知机制
持久化支持
优先级消息支持

4. 核心结构体

struct mq_attr

struct mq_attr {
    long mq_flags;   /* 消息队列标志 */
    long mq_maxmsg;  /* 最大消息数 */
    long mq_msgsize; /* 最大消息大小 */
    long mq_curmsgs; /* 当前消息数 */
};

struct sigevent (用于通知)

struct sigevent {
    int          sigev_notify;            /* 通知类型 */
    int          sigev_signo;             /* 信号编号 */
    union sigval sigev_value;             /* 传递给处理函数的数据 */
    void       (*sigev_notify_function)(union sigval);  /* 线程函数 */
    pthread_attr_t *sigev_notify_attributes;           /* 线程属性 */
};

5. 消息队列名称

名称必须以 ‘/’ 开头
长度限制为 NAME_MAX (通常 255 字符)
示例：“/my_queue”, “/app/messages”

6. 打开标志 (oflag)

标志	说明
O_RDONLY	只读打开
O_WRONLY	只写打开
O_RDWR	读写打开
O_CREAT	不存在时创建
O_EXCL	与 O_CREAT 一起使用，如果存在则失败
O_NONBLOCK	非阻塞模式

7. 返回值

mq_open: 成功返回消息队列描述符，失败返回 (mqd_t)-1
其他函数: 成功返回 0，失败返回 -1

8. 相关函数

pthread: 多线程支持
signal: 信号处理
fcntl: 文件控制
unlink: 删除文件

9. 示例代码

示例1：基础用法 – 简单的消息发送和接收

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <string.h>
#include <mqueue.h>
#include <fcntl.h>
#include <sys/stat.h>
#include <errno.h>

#define QUEUE_NAME "/example_queue"
#define MAX_MSG_SIZE 256
#define MAX_MSGS 10

int main() {
    mqd_t mq;
    struct mq_attr attr;
    char send_buffer[MAX_MSG_SIZE];
    char recv_buffer[MAX_MSG_SIZE];
    ssize_t bytes_read;
    unsigned int priority;
    
    printf("=== POSIX 消息队列基础示例 ===\n\n");
    
    // 设置消息队列属性
    attr.mq_flags = 0;
    attr.mq_maxmsg = MAX_MSGS;
    attr.mq_msgsize = MAX_MSG_SIZE;
    attr.mq_curmsgs = 0;
    
    // 创建并打开消息队列
    printf("创建消息队列: %s\n", QUEUE_NAME);
    mq = mq_open(QUEUE_NAME, O_CREAT | O_RDWR, 0644, &attr);
    if (mq == (mqd_t)-1) {
        perror("mq_open");
        exit(1);
    }
    printf("✓ 消息队列创建成功\n\n");
    
    // 获取并显示队列属性
    printf("消息队列属性:\n");
    if (mq_getattr(mq, &attr) == 0) {
        printf("  最大消息数: %ld\n", attr.mq_maxmsg);
        printf("  最大消息大小: %ld 字节\n", attr.mq_msgsize);
        printf("  当前消息数: %ld\n", attr.mq_curmsgs);
        printf("  标志: %ld\n", attr.mq_flags);
    }
    printf("\n");
    
    // 发送消息
    printf("发送消息:\n");
    const char* messages[] = {
        "第一条消息: Hello, World!",
        "第二条消息: 欢迎使用 POSIX 消息队列",
        "第三条消息: 这是优先级消息",
        "第四条消息: 最后一条测试消息"
    };
    int priorities[] = {0, 0, 10, 0};  // 优先级 (数值越大优先级越高)
    
    for (int i = 0; i < 4; i++) {
        if (mq_send(mq, messages[i], strlen(messages[i]) + 1, priorities[i]) == 0) {
            printf("  ✓ 发送消息 %d (优先级 %d): %s\n", i + 1, priorities[i], messages[i]);
        } else {
            perror("  ✗ mq_send 失败");
        }
    }
    
    // 显示发送后队列状态
    if (mq_getattr(mq, &attr) == 0) {
        printf("\n发送后队列状态: %ld 条消息\n", attr.mq_curmsgs);
    }
    
    // 接收消息
    printf("\n接收消息 (按优先级顺序):\n");
    for (int i = 0; i < 4; i++) {
        bytes_read = mq_receive(mq, recv_buffer, MAX_MSG_SIZE, &priority);
        if (bytes_read != -1) {
            printf("  ✓ 接收消息 %d (优先级 %d, 长度 %zd): %s\n", 
                   i + 1, priority, bytes_read, recv_buffer);
        } else {
            if (errno == EAGAIN) {
                printf("  ⚠ 队列为空\n");
                break;
            } else {
                perror("  ✗ mq_receive 失败");
                break;
            }
        }
    }
    
    // 显示接收后队列状态
    if (mq_getattr(mq, &attr) == 0) {
        printf("\n接收后队列状态: %ld 条消息\n", attr.mq_curmsgs);
    }
    
    // 关闭消息队列
    if (mq_close(mq) == 0) {
        printf("✓ 消息队列关闭成功\n");
    } else {
        perror("✗ mq_close 失败");
    }
    
    // 删除消息队列
    if (mq_unlink(QUEUE_NAME) == 0) {
        printf("✓ 消息队列删除成功\n");
    } else {
        perror("✗ mq_unlink 失败");
    }
    
    printf("\n=== 消息队列特点 ===\n");
    printf("1. 支持优先级消息 (数值越大优先级越高)\n");
    printf("2. 消息大小可配置\n");
    printf("3. 消息数量有限制\n");
    printf("4. 支持持久化 (直到显式删除)\n");
    printf("5. 可通过文件系统路径访问\n");
    
    return 0;
}

示例2：生产者-消费者模型

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <string.h>
#include <mqueue.h>
#include <fcntl.h>
#include <sys/stat.h>
#include <pthread.h>
#include <errno.h>
#include <time.h>

#define QUEUE_NAME "/producer_consumer_queue"
#define MAX_MSG_SIZE 256
#define MAX_MSGS 20
#define NUM_MESSAGES 10

// 全局变量
mqd_t mq;
int producer_count = 0;
int consumer_count = 0;
pthread_mutex_t count_mutex = PTHREAD_MUTEX_INITIALIZER;

// 生产者线程函数
void* producer_thread(void* arg) {
    int producer_id = *(int*)arg;
    char message[MAX_MSG_SIZE];
    time_t now;
    
    printf("生产者 %d 启动\n", producer_id);
    
    for (int i = 0; i < NUM_MESSAGES; i++) {
        // 构造消息
        time(&now);
        snprintf(message, sizeof(message), 
                "P%d-MSG%d-TIME:%s", producer_id, i + 1, ctime(&now));
        
        // 发送消息 (交替使用不同优先级)
        unsigned int priority = (i % 3 == 0) ? 5 : 1;  // 每第3条高优先级
        
        if (mq_send(mq, message, strlen(message) + 1, priority) == 0) {
            pthread_mutex_lock(&count_mutex);
            producer_count++;
            pthread_mutex_unlock(&count_mutex);
            
            printf("生产者 %d 发送消息: %s (优先级 %u)\n", 
                   producer_id, message, priority);
        } else {
            perror("生产者发送失败");
        }
        
        // 随机延迟
        usleep((rand() % 100 + 1) * 1000);  // 1-100ms
    }
    
    printf("生产者 %d 完成\n", producer_id);
    return NULL;
}

// 消费者线程函数
void* consumer_thread(void* arg) {
    int consumer_id = *(int*)arg;
    char message[MAX_MSG_SIZE];
    ssize_t bytes_read;
    unsigned int priority;
    
    printf("消费者 %d 启动\n", consumer_id);
    
    while (1) {
        // 接收消息
        bytes_read = mq_receive(mq, message, MAX_MSG_SIZE, &priority);
        if (bytes_read != -1) {
            pthread_mutex_lock(&count_mutex);
            consumer_count++;
            int current_count = consumer_count;
            pthread_mutex_unlock(&count_mutex);
            
            printf("消费者 %d 接收消息 %d (优先级 %u): %s", 
                   consumer_id, current_count, priority, message);
            
            // 检查是否接收完所有消息
            if (current_count >= NUM_MESSAGES * 2) {  // 2个生产者
                break;
            }
        } else {
            if (errno == EAGAIN) {
                // 非阻塞模式下队列为空
                usleep(10000);  // 10ms
                continue;
            } else {
                perror("消费者接收失败");
                break;
            }
        }
        
        // 随机延迟
        usleep((rand() % 50 + 1) * 1000);  // 1-50ms
    }
    
    printf("消费者 %d 完成\n", consumer_id);
    return NULL;
}

int main() {
    pthread_t producers[2];
    pthread_t consumers[3];
    int producer_ids[2] = {1, 2};
    int consumer_ids[3] = {1, 2, 3};
    struct mq_attr attr;
    
    printf("=== 生产者-消费者消息队列示例 ===\n\n");
    
    // 初始化随机数种子
    srand(time(NULL) + getpid());
    
    // 设置消息队列属性
    attr.mq_flags = 0;  // 阻塞模式
    attr.mq_maxmsg = MAX_MSGS;
    attr.mq_msgsize = MAX_MSG_SIZE;
    attr.mq_curmsgs = 0;
    
    // 创建消息队列
    printf("创建消息队列: %s\n", QUEUE_NAME);
    mq = mq_open(QUEUE_NAME, O_CREAT | O_RDWR | O_NONBLOCK, 0644, &attr);
    if (mq == (mqd_t)-1) {
        perror("mq_open");
        exit(1);
    }
    printf("✓ 消息队列创建成功\n\n");
    
    // 创建生产者线程
    printf("创建生产者线程...\n");
    for (int i = 0; i < 2; i++) {
        if (pthread_create(&producers[i], NULL, producer_thread, &producer_ids[i]) != 0) {
            perror("创建生产者线程失败");
            exit(1);
        }
    }
    
    // 创建消费者线程
    printf("创建消费者线程...\n");
    for (int i = 0; i < 3; i++) {
        if (pthread_create(&consumers[i], NULL, consumer_thread, &consumer_ids[i]) != 0) {
            perror("创建消费者线程失败");
            exit(1);
        }
    }
    
    // 等待生产者完成
    printf("等待生产者完成...\n");
    for (int i = 0; i < 2; i++) {
        pthread_join(producers[i], NULL);
    }
    
    // 等待消费者完成
    printf("等待消费者完成...\n");
    for (int i = 0; i < 3; i++) {
        pthread_join(consumers[i], NULL);
    }
    
    // 显示统计信息
    printf("\n=== 统计信息 ===\n");
    printf("生产消息数: %d\n", producer_count);
    printf("消费消息数: %d\n", consumer_count);
    
    // 显示最终队列状态
    if (mq_getattr(mq, &attr) == 0) {
        printf("队列中剩余消息: %ld\n", attr.mq_curmsgs);
    }
    
    // 清理资源
    if (mq_close(mq) == 0) {
        printf("✓ 消息队列关闭成功\n");
    }
    if (mq_unlink(QUEUE_NAME) == 0) {
        printf("✓ 消息队列删除成功\n");
    }
    
    printf("\n=== 生产者-消费者模型特点 ===\n");
    printf("1. 解耦: 生产者和消费者独立运行\n");
    printf("2. 异步: 生产和消费可以不同步进行\n");
    printf("3. 缓冲: 消息队列提供缓冲作用\n");
    printf("4. 负载均衡: 多个消费者可以并行处理\n");
    printf("5. 可靠性: 消息持久化存储\n");
    
    return 0;
}

示例3：完整的消息队列管理系统

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <string.h>
#include <mqueue.h>
#include <fcntl.h>
#include <sys/stat.h>
#include <errno.h>
#include <getopt.h>
#include <signal.h>
#include <time.h>

// 配置结构体
struct mq_config {
    char *queue_name;
    int max_messages;
    int max_message_size;
    int create_queue;
    int delete_queue;
    int show_info;
    int send_message;
    int receive_message;
    int list_queues;
    int priority;
    char *message_content;
    int non_blocking;
    int verbose;
};

// 全局变量
volatile sig_atomic_t running = 1;

// 信号处理函数
void signal_handler(int sig) {
    printf("\n收到信号 %d，准备退出...\n", sig);
    running = 0;
}

// 设置信号处理
void setup_signal_handlers() {
    struct sigaction sa;
    sa.sa_handler = signal_handler;
    sigemptyset(&sa.sa_mask);
    sa.sa_flags = 0;
    
    sigaction(SIGINT, &sa, NULL);   // Ctrl+C
    sigaction(SIGTERM, &sa, NULL);  // 终止信号
}

// 显示消息队列信息
void show_queue_info(mqd_t mq) {
    struct mq_attr attr;
    
    if (mq_getattr(mq, &attr) == 0) {
        printf("消息队列属性:\n");
        printf("  最大消息数: %ld\n", attr.mq_maxmsg);
        printf("  最大消息大小: %ld 字节\n", attr.mq_msgsize);
        printf("  当前消息数: %ld\n", attr.mq_curmsgs);
        printf("  标志: %s\n", (attr.mq_flags & O_NONBLOCK) ? "非阻塞" : "阻塞");
    } else {
        perror("获取队列属性失败");
    }
}

// 列出所有消息队列
void list_all_queues() {
    printf("=== 系统消息队列列表 ===\n");
    printf("注意: POSIX 消息队列通常在 /dev/mqueue/ 目录下\n");
    
    // 尝试列出 /dev/mqueue/ 目录
    if (access("/dev/mqueue", F_OK) == 0) {
        printf("系统消息队列目录存在\n");
        system("ls -la /dev/mqueue/ 2>/dev/null || echo '无法访问 /dev/mqueue/'");
    } else {
        printf("系统消息队列目录不存在\n");
    }
    printf("\n");
}

// 发送消息
int send_message_to_queue(mqd_t mq, const char *message, int priority, int non_blocking) {
    struct mq_attr attr;
    
    // 检查消息大小
    if (mq_getattr(mq, &attr) == 0) {
        if (strlen(message) + 1 > (size_t)attr.mq_msgsize) {
            fprintf(stderr, "错误: 消息大小 (%zu) 超过队列限制 (%ld)\n", 
                    strlen(message) + 1, attr.mq_msgsize);
            return -1;
        }
    }
    
    // 发送消息
    if (mq_send(mq, message, strlen(message) + 1, priority) == 0) {
        printf("✓ 消息发送成功 (优先级 %d): %s\n", priority, message);
        return 0;
    } else {
        if (errno == EAGAIN && non_blocking) {
            printf("⚠ 队列已满，非阻塞模式下发送失败\n");
        } else {
            perror("✗ 消息发送失败");
        }
        return -1;
    }
}

// 接收消息
int receive_message_from_queue(mqd_t mq, int non_blocking) {
    char *buffer;
    struct mq_attr attr;
    ssize_t bytes_read;
    unsigned int priority;
    
    // 获取队列属性以确定缓冲区大小
    if (mq_getattr(mq, &attr) != 0) {
        perror("获取队列属性失败");
        return -1;
    }
    
    buffer = malloc(attr.mq_msgsize);
    if (!buffer) {
        perror("内存分配失败");
        return -1;
    }
    
    // 接收消息
    bytes_read = mq_receive(mq, buffer, attr.mq_msgsize, &priority);
    if (bytes_read != -1) {
        printf("✓ 消息接收成功 (优先级 %u, 长度 %zd): %s", 
               priority, bytes_read, buffer);
        free(buffer);
        return 0;
    } else {
        if (errno == EAGAIN && non_blocking) {
            printf("⚠ 队列为空，非阻塞模式下接收失败\n");
        } else {
            perror("✗ 消息接收失败");
        }
        free(buffer);
        return -1;
    }
}

// 创建消息队列
mqd_t create_message_queue(const char *name, int max_msgs, int max_size, int non_blocking) {
    struct mq_attr attr;
    int flags = O_CREAT | O_RDWR;
    
    if (non_blocking) {
        flags |= O_NONBLOCK;
    }
    
    attr.mq_flags = non_blocking ? O_NONBLOCK : 0;
    attr.mq_maxmsg = max_msgs;
    attr.mq_msgsize = max_size;
    attr.mq_curmsgs = 0;
    
    mqd_t mq = mq_open(name, flags, 0644, &attr);
    if (mq == (mqd_t)-1) {
        perror("创建消息队列失败");
        return (mqd_t)-1;
    }
    
    printf("✓ 消息队列创建成功: %s\n", name);
    return mq;
}

// 打开现有消息队列
mqd_t open_existing_queue(const char *name, int non_blocking) {
    int flags = O_RDWR;
    
    if (non_blocking) {
        flags |= O_NONBLOCK;
    }
    
    mqd_t mq = mq_open(name, flags);
    if (mq == (mqd_t)-1) {
        perror("打开消息队列失败");
        return (mqd_t)-1;
    }
    
    printf("✓ 消息队列打开成功: %s\n", name);
    return mq;
}

// 显示帮助信息
void show_help(const char *program_name) {
    printf("用法: %s [选项]\n", program_name);
    printf("\n选项:\n");
    printf("  -n, --name=NAME        消息队列名称 (以 / 开头)\n");
    printf("  -c, --create           创建消息队列\n");
    printf("  -d, --delete           删除消息队列\n");
    printf("  -i, --info             显示队列信息\n");
    printf("  -l, --list             列出所有队列\n");
    printf("  -s, --send=MESSAGE     发送消息\n");
    printf("  -r, --receive          接收消息\n");
    printf("  -p, --priority=NUM     消息优先级 (默认 0)\n");
    printf("  -m, --max-msgs=NUM     最大消息数 (创建时使用)\n");
    printf("  -z, --max-size=NUM     最大消息大小 (创建时使用)\n");
    printf("  -b, --non-blocking     非阻塞模式\n");
    printf("  -v, --verbose          详细输出\n");
    printf("  -h, --help             显示此帮助信息\n");
    printf("\n示例:\n");
    printf("  %s -n /myqueue -c -m 10 -z 256     # 创建队列\n", program_name);
    printf("  %s -n /myqueue -s \"Hello World\"   # 发送消息\n", program_name);
    printf("  %s -n /myqueue -r                  # 接收消息\n", program_name);
    printf("  %s -n /myqueue -i                  # 显示队列信息\n", program_name);
    printf("  %s -n /myqueue -d                  # 删除队列\n", program_name);
    printf("  %s -l                              # 列出所有队列\n", program_name);
}

int main(int argc, char *argv[]) {
    struct mq_config config = {
        .queue_name = NULL,
        .max_messages = 10,
        .max_message_size = 256,
        .create_queue = 0,
        .delete_queue = 0,
        .show_info = 0,
        .send_message = 0,
        .receive_message = 0,
        .list_queues = 0,
        .priority = 0,
        .message_content = NULL,
        .non_blocking = 0,
        .verbose = 0
    };
    
    printf("=== POSIX 消息队列管理系统 ===\n\n");
    
    // 解析命令行参数
    static struct option long_options[] = {
        {"name",        required_argument, 0, 'n'},
        {"create",      no_argument,       0, 'c'},
        {"delete",      no_argument,       0, 'd'},
        {"info",        no_argument,       0, 'i'},
        {"list",        no_argument,       0, 'l'},
        {"send",        required_argument, 0, 's'},
        {"receive",     no_argument,       0, 'r'},
        {"priority",    required_argument, 0, 'p'},
        {"max-msgs",    required_argument, 0, 'm'},
        {"max-size",    required_argument, 0, 'z'},
        {"non-blocking", no_argument,      0, 'b'},
        {"verbose",     no_argument,       0, 'v'},
        {"help",        no_argument,       0, 'h'},
        {0, 0, 0, 0}
    };
    
    int opt;
    while ((opt = getopt_long(argc, argv, "n:cdils:rp:m:z:bvh", long_options, NULL)) != -1) {
        switch (opt) {
            case 'n':
                config.queue_name = optarg;
                break;
            case 'c':
                config.create_queue = 1;
                break;
            case 'd':
                config.delete_queue = 1;
                break;
            case 'i':
                config.show_info = 1;
                break;
            case 'l':
                config.list_queues = 1;
                break;
            case 's':
                config.send_message = 1;
                config.message_content = optarg;
                break;
            case 'r':
                config.receive_message = 1;
                break;
            case 'p':
                config.priority = atoi(optarg);
                break;
            case 'm':
                config.max_messages = atoi(optarg);
                break;
            case 'z':
                config.max_message_size = atoi(optarg);
                break;
            case 'b':
                config.non_blocking = 1;
                break;
            case 'v':
                config.verbose = 1;
                break;
            case 'h':
                show_help(argv[0]);
                return 0;
            default:
                fprintf(stderr, "使用 '%s --help' 查看帮助信息\n", argv[0]);
                return 1;
        }
    }
    
    // 设置信号处理
    setup_signal_handlers();
    
    // 显示系统信息
    if (config.verbose) {
        printf("系统信息:\n");
        printf("  当前用户 UID: %d\n", getuid());
        printf("  当前进程 PID: %d\n", getpid());
        printf("  消息队列支持: ");
        system("ls /dev/mqueue/ >/dev/null 2>&1 && echo '是' || echo '否'");
        printf("\n");
    }
    
    // 列出所有队列
    if (config.list_queues) {
        list_all_queues();
        if (!config.queue_name && !config.create_queue && !config.delete_queue &&
            !config.show_info && !config.send_message && !config.receive_message) {
            return 0;
        }
    }
    
    // 如果没有指定队列名称且需要操作队列
    if (!config.queue_name && (config.create_queue || config.delete_queue || 
                              config.show_info || config.send_message || 
                              config.receive_message)) {
        fprintf(stderr, "错误: 需要指定消息队列名称\n");
        fprintf(stderr, "使用 '%s --help' 查看帮助信息\n", argv[0]);
        return 1;
    }
    
    // 处理队列操作
    mqd_t mq = (mqd_t)-1;
    
    if (config.create_queue) {
        mq = create_message_queue(config.queue_name, config.max_messages, 
                                 config.max_message_size, config.non_blocking);
        if (mq == (mqd_t)-1) {
            return 1;
        }
        
        if (config.show_info) {
            show_queue_info(mq);
        }
    } else if (config.queue_name) {
        // 打开现有队列
        mq = open_existing_queue(config.queue_name, config.non_blocking);
        if (mq == (mqd_t)-1) {
            return 1;
        }
    }
    
    // 显示队列信息
    if (config.show_info && mq != (mqd_t)-1) {
        show_queue_info(mq);
    }
    
    // 发送消息
    if (config.send_message && config.message_content && mq != (mqd_t)-1) {
        send_message_to_queue(mq, config.message_content, 
                             config.priority, config.non_blocking);
    }
    
    // 接收消息
    if (config.receive_message && mq != (mqd_t)-1) {
        if (config.non_blocking) {
            receive_message_from_queue(mq, config.non_blocking);
        } else {
            printf("等待接收消息 (按 Ctrl+C 退出)...\n");
            while (running) {
                if (receive_message_from_queue(mq, config.non_blocking) == -1) {
                    if (errno != EAGAIN) {
                        break;
                    }
                }
                if (!config.non_blocking) {
                    sleep(1);  // 阻塞模式下定期检查
                }
            }
        }
    }
    
    // 删除队列
    if (config.delete_queue && config.queue_name) {
        if (mq_unlink(config.queue_name) == 0) {
            printf("✓ 消息队列删除成功: %s\n", config.queue_name);
        } else {
            perror("✗ 消息队列删除失败");
        }
    }
    
    // 关闭队列
    if (mq != (mqd_t)-1) {
        if (mq_close(mq) == 0) {
            if (config.verbose) {
                printf("✓ 消息队列关闭成功\n");
            }
        } else {
            perror("✗ 消息队列关闭失败");
        }
    }
    
    // 显示使用建议
    printf("\n=== POSIX 消息队列使用建议 ===\n");
    printf("适用场景:\n");
    printf("1. 进程间通信 (IPC)\n");
    printf("2. 生产者-消费者模式\n");
    printf("3. 异步消息处理\n");
    printf("4. 系统服务通信\n");
    printf("5. 微服务架构\n");
    printf("\n");
    printf("优势:\n");
    printf("1. 可靠性: 消息持久化存储\n");
    printf("2. 优先级: 支持消息优先级\n");
    printf("3. 可移植: POSIX 标准\n");
    printf("4. 灵活性: 支持阻塞和非阻塞模式\n");
    printf("5. 安全性: 通过文件系统权限控制\n");
    printf("\n");
    printf("注意事项:\n");
    printf("1. 需要链接实时库: -lrt\n");
    printf("2. 队列名称必须以 / 开头\n");
    printf("3. 消息大小和数量有限制\n");
    printf("4. 需要适当权限才能创建/删除队列\n");
    printf("5. 应该及时关闭和清理队列资源\n");
    
    return 0;
}

编译和运行说明

# 编译示例程序（需要链接实时库）
gcc -o mq_example1 example1.c -lrt
gcc -o mq_example2 example2.c -lrt -lpthread
gcc -o mq_example3 example3.c -lrt -lpthread

# 运行示例
./mq_example1
./mq_example2
./mq_example3 --help

# 基本操作示例
./mq_example3 -n /test_queue -c -m 5 -z 128
./mq_example3 -n /test_queue -s "Hello, Message Queue!"
./mq_example3 -n /test_queue -r
./mq_example3 -n /test_queue -i
./mq_example3 -n /test_queue -d

# 列出所有队列
./mq_example3 -l

系统要求检查

# 检查系统支持
ls /dev/mqueue/ 2>/dev/null || echo "消息队列目录不存在"

# 检查内核配置
grep -i mq /boot/config-$(uname -r)

# 检查库支持
ldd --version

# 查看系统限制
ulimit -a | grep -i msg
cat /proc/sys/fs/mqueue/

重要注意事项

编译要求: 需要链接实时库 -lrt
权限要求: 创建/删除队列通常需要适当权限
名称规范: 队列名称必须以 ‘/’ 开头
资源限制: 受系统消息队列限制约束
清理责任: 应该及时关闭和删除队列
线程安全: 消息队列描述符在多线程间共享是安全的

实际应用场景

微服务通信: 服务间异步消息传递
日志系统: 异步日志记录
任务队列: 后台任务处理
事件驱动: 事件通知和处理
数据流: 实时数据处理管道
系统监控: 状态变更通知

最佳实践

// 安全的消息队列操作函数
mqd_t safe_mq_open(const char *name, int oflag, mode_t mode, struct mq_attr *attr) {
    mqd_t mq = mq_open(name, oflag, mode, attr);
    if (mq == (mqd_t)-1) {
        switch (errno) {
            case EACCES:
                fprintf(stderr, "权限不足访问队列: %s\n", name);
                break;
            case EEXIST:
                fprintf(stderr, "队列已存在: %s\n", name);
                break;
            case ENOENT:
                fprintf(stderr, "队列不存在: %s\n", name);
                break;
            case EINVAL:
                fprintf(stderr, "无效的队列名称或参数: %s\n", name);
                break;
            default:
                perror("mq_open 失败");
                break;
        }
    }
    return mq;
}

// 可靠的消息发送函数
int reliable_mq_send(mqd_t mqdes, const char *msg_ptr, size_t msg_len, 
                     unsigned msg_prio, int timeout_seconds) {
    struct timespec timeout;
    int result;
    
    if (timeout_seconds > 0) {
        clock_gettime(CLOCK_REALTIME, &timeout);
        timeout.tv_sec += timeout_seconds;
        result = mq_timedsend(mqdes, msg_ptr, msg_len, msg_prio, &timeout);
    } else {
        result = mq_send(mqdes, msg_ptr, msg_len, msg_prio);
    }
    
    return result;
}

// 带重试的消息接收函数
ssize_t retry_mq_receive(mqd_t mqdes, char *msg_ptr, size_t msg_len, 
                         unsigned *msg_prio, int max_retries) {
    ssize_t result;
    int retries = 0;
    
    while (retries < max_retries) {
        result = mq_receive(mqdes, msg_ptr, msg_len, msg_prio);
        if (result != -1) {
            return result;  // 成功接收
        }
        
        if (errno == EAGAIN) {
            retries++;
            usleep(100000);  // 100ms 延迟后重试
        } else {
            break;  // 其他错误，不再重试
        }
    }
    
    return result;
}

这些示例展示了 POSIX 消息队列的各种使用方法，从基础的消息发送接收到完整的管理系统，帮助你全面掌握 Linux 系统中的消息队列机制。

发表在 linux文章 | 留下评论

io_uring 系统调用及示例

发表于2025-08-05由麦芽爸

io_uring 系统调用详解

1. 函数介绍

io_uring 是Linux 5.1引入的高性能异步I/O框架，提供了一种现代化的异步I/O接口。相比传统的AIO（异步I/O），io_uring具有更好的性能、更低的系统调用开销和更丰富的功能。它使用共享内存环形缓冲区实现用户空间和内核空间的高效通信。

2. 函数原型

#include <liburing.h>
#include <linux/io_uring.h>

// 初始化io_uring实例
int io_uring_queue_init(unsigned entries, struct io_uring *ring, unsigned flags);

// 销毁io_uring实例
int io_uring_queue_exit(struct io_uring *ring);

// 提交I/O请求
int io_uring_submit(struct io_uring *ring);

// 等待I/O完成事件
int io_uring_wait_cqe(struct io_uring *ring, struct io_uring_cqe **cqe_ptr);

// 标记完成事件已处理
void io_uring_cqe_seen(struct io_uring *ring, struct io_uring_cqe *cqe);

// 准备I/O操作
void io_uring_prep_read(struct io_uring_sqe *sqe, int fd, void *buf, unsigned nbytes, __u64 offset);
void io_uring_prep_write(struct io_uring_sqe *sqe, int fd, const void *buf, unsigned nbytes, __u64 offset);
void io_uring_prep_openat(struct io_uring_sqe *sqe, int dfd, const char *path, int flags, mode_t mode);
void io_uring_prep_close(struct io_uring_sqe *sqe, int fd);
void io_uring_prep_fsync(struct io_uring_sqe *sqe, int fd, unsigned fsync_flags);

3. 功能

io_uring 提供了完整的异步I/O解决方案，支持文件I/O、网络I/O、文件操作等多种操作类型。它通过共享内存环形缓冲区实现零拷贝的数据传输，显著提高了I/O性能。

4. 参数说明

io_uring_queue_init参数：

unsigned entries: 环形缓冲区大小（必须是2的幂）
*struct io_uring ring: io_uring实例指针
unsigned flags: 初始化标志

io_uring_queue_exit参数：

*struct io_uring ring: 要销毁的io_uring实例

io_uring_submit参数：

*struct io_uring ring: io_uring实例

io_uring_wait_cqe参数：

*struct io_uring ring: io_uring实例
**struct io_uring_cqe cqe_ptr: 完成事件指针

5. 返回值

成功: 返回非负值或0
失败: 返回负的错误码

6. 相似函数，或关联函数

io_setup/io_destroy: 传统的AIO接口
io_submit/io_cancel: 传统的AIO提交和取消
io_getevents: 传统的AIO事件获取
aio_read/aio_write: POSIX AIO接口
epoll_wait/poll: 传统的I/O多路复用

7. 示例代码

示例1：基础io_uring使用

#include <liburing.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>

/**
 * 演示基础io_uring使用方法
 */
int demo_io_uring_basic() {
    struct io_uring ring;
    int ret;
    
    printf("=== 基础io_uring使用示例 ===\n");
    
    // 初始化io_uring实例
    printf("1. 初始化io_uring实例:\n");
    ret = io_uring_queue_init(32, &ring, 0);
    if (ret < 0) {
        printf("  初始化失败: %s\n", strerror(-ret));
        return -1;
    }
    printf("  ✓ io_uring实例初始化成功\n");
    printf("  环形缓冲区大小: 32\n");
    
    // 显示io_uring信息
    printf("  io_uring信息:\n");
    printf("    提交队列大小: %u\n", ring.sq.ring_sz);
    printf("    完成队列大小: %u\n", ring.cq.ring_sz);
    printf("    特性标志: 0x%x\n", ring.features);
    
    // 创建测试文件
    printf("\n2. 创建测试文件:\n");
    const char *test_filename = "io_uring_test.txt";
    int test_fd = open(test_filename, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (test_fd == -1) {
        perror("  创建测试文件失败");
        io_uring_queue_exit(&ring);
        return -1;
    }
    printf("  ✓ 测试文件创建成功: %s\n", test_filename);
    
    // 准备测试数据
    const char *test_data = "Hello from io_uring! This is a test message.\n";
    size_t data_size = strlen(test_data);
    
    // 使用io_uring写入数据
    printf("\n3. 使用io_uring写入数据:\n");
    struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
    if (!sqe) {
        printf("  获取SQE失败\n");
        close(test_fd);
        unlink(test_filename);
        io_uring_queue_exit(&ring);
        return -1;
    }
    
    // 准备写入操作
    io_uring_prep_write(sqe, test_fd, test_data, data_size, 0);
    sqe->user_data = 1;  // 设置用户数据
    
    printf("  准备写入操作:\n");
    printf("    文件描述符: %d\n", test_fd);
    printf("    数据大小: %zu 字节\n", data_size);
    printf("    偏移量: 0\n");
    
    // 提交操作
    ret = io_uring_submit(&ring);
    if (ret <= 0) {
        printf("  提交操作失败: %s\n", strerror(-ret));
        close(test_fd);
        unlink(test_filename);
        io_uring_queue_exit(&ring);
        return -1;
    }
    printf("  ✓ 操作提交成功，提交了 %d 个请求\n", ret);
    
    // 等待完成
    printf("\n4. 等待I/O操作完成:\n");
    struct io_uring_cqe *cqe;
    ret = io_uring_wait_cqe(&ring, &cqe);
    if (ret < 0) {
        printf("  等待完成事件失败: %s\n", strerror(-ret));
        close(test_fd);
        unlink(test_filename);
        io_uring_queue_exit(&ring);
        return -1;
    }
    
    printf("  ✓ I/O操作完成\n");
    printf("    用户数据: %llu\n", (unsigned long long)cqe->user_data);
    printf("    结果: %d 字节\n", cqe->res);
    printf("    标志: 0x%x\n", cqe->flags);
    
    // 标记完成事件已处理
    io_uring_cqe_seen(&ring, cqe);
    
    // 读取写入的数据验证
    printf("\n5. 验证写入结果:\n");
    close(test_fd);
    
    test_fd = open(test_filename, O_RDONLY);
    if (test_fd != -1) {
        char read_buffer[256];
        ssize_t bytes_read = read(test_fd, read_buffer, sizeof(read_buffer) - 1);
        if (bytes_read > 0) {
            read_buffer[bytes_read] = '\0';
            printf("  读取到的数据 (%zd 字节):\n", bytes_read);
            printf("  %s", read_buffer);
        }
        close(test_fd);
    }
    
    // 清理资源
    printf("\n6. 清理资源:\n");
    unlink(test_filename);
    io_uring_queue_exit(&ring);
    printf("  ✓ 资源清理完成\n");
    
    return 0;
}

int main() {
    return demo_io_uring_basic();
}

示例2：批量I/O操作

#include <liburing.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>
#include <sys/stat.h>

/**
 * 批量I/O操作演示
 */
int demo_batch_io_operations() {
    struct io_uring ring;
    const int batch_size = 8;
    const int file_count = 5;
    int ret;
    
    printf("=== 批量I/O操作演示 ===\n");
    
    // 初始化io_uring
    printf("1. 初始化io_uring:\n");
    ret = io_uring_queue_init(64, &ring, 0);
    if (ret < 0) {
        printf("  初始化失败: %s\n", strerror(-ret));
        return -1;
    }
    printf("  ✓ io_uring初始化成功\n");
    
    // 创建测试文件
    printf("\n2. 创建测试文件:\n");
    int file_fds[file_count];
    char filenames[file_count][32];
    
    for (int i = 0; i < file_count; i++) {
        snprintf(filenames[i], sizeof(filenames[i]), "batch_test_%d.txt", i);
        file_fds[i] = open(filenames[i], O_CREAT | O_WRONLY | O_TRUNC, 0644);
        if (file_fds[i] == -1) {
            perror("  创建文件失败");
            // 清理已创建的文件
            for (int j = 0; j < i; j++) {
                close(file_fds[j]);
                unlink(filenames[j]);
            }
            io_uring_queue_exit(&ring);
            return -1;
        }
        printf("  创建文件 %d: %s\n", i, filenames[i]);
    }
    
    // 准备批量写入操作
    printf("\n3. 准备批量写入操作:\n");
    char *test_data[file_count];
    int submitted_ops = 0;
    
    for (int i = 0; i < file_count; i++) {
        // 分配测试数据
        test_data[i] = malloc(256);
        if (!test_data[i]) {
            perror("  分配测试数据失败");
            // 清理资源
            for (int j = 0; j <= i; j++) {
                if (test_data[j]) free(test_data[j]);
                if (j < file_count) {
                    close(file_fds[j]);
                    unlink(filenames[j]);
                }
            }
            io_uring_queue_exit(&ring);
            return -1;
        }
        
        snprintf(test_data[i], 256, 
                "Batch write test data for file %d. Operation count: %d\n", i, i + 1);
        
        // 准备多个写入操作
        for (int j = 0; j < batch_size && submitted_ops < 32; j++) {
            struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
            if (!sqe) {
                printf("  获取SQE失败\n");
                break;
            }
            
            // 准备写入操作
            io_uring_prep_write(sqe, file_fds[i], test_data[i], strlen(test_data[i]), 
                              j * 256);
            sqe->user_data = (i * batch_size + j);  // 唯一标识符
            
            submitted_ops++;
        }
        
        printf("  为文件 %d 准备了 %d 个写入操作\n", i, batch_size);
    }
    
    printf("\n4. 批量提交I/O操作:\n");
    printf("  总共准备了 %d 个I/O操作\n", submitted_ops);
    
    ret = io_uring_submit(&ring);
    if (ret <= 0) {
        printf("  提交操作失败: %s\n", strerror(-ret));
    } else {
        printf("  ✓ 成功提交 %d 个I/O操作\n", ret);
    }
    
    // 等待所有操作完成
    printf("\n5. 等待所有操作完成:\n");
    int completed_ops = 0;
    
    while (completed_ops < submitted_ops) {
        struct io_uring_cqe *cqe;
        ret = io_uring_wait_cqe(&ring, &cqe);
        if (ret < 0) {
            printf("  等待完成事件失败: %s\n", strerror(-ret));
            break;
        }
        
        completed_ops++;
        printf("  操作 %d 完成: 写入 %d 字节\n", 
               (int)cqe->user_data, cqe->res);
        
        // 标记完成事件已处理
        io_uring_cqe_seen(&ring, cqe);
    }
    
    printf("  总共完成了 %d 个I/O操作\n", completed_ops);
    
    // 验证写入结果
    printf("\n6. 验证写入结果:\n");
    for (int i = 0; i < file_count; i++) {
        close(file_fds[i]);
        
        // 重新打开文件读取
        int read_fd = open(filenames[i], O_RDONLY);
        if (read_fd != -1) {
            struct stat st;
            if (fstat(read_fd, &st) == 0) {
                printf("  文件 %s: 大小 %ld 字节\n", filenames[i], st.st_size);
            }
            close(read_fd);
        }
    }
    
    // 清理资源
    printf("\n7. 清理资源:\n");
    for (int i = 0; i < file_count; i++) {
        free(test_data[i]);
        unlink(filenames[i]);
    }
    
    io_uring_queue_exit(&ring);
    printf("  ✓ 所有资源清理完成\n");
    
    return 0;
}

int main() {
    return demo_batch_io_operations();
}

示例3：文件操作演示

#include <liburing.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>
#include <sys/stat.h>

/**
 * 文件操作结构
 */
typedef struct {
    int fd;
    char filename[64];
    off_t file_size;
    int operation_type;  // 0:read, 1:write, 2:open, 3:close, 4:fsync
} file_operation_t;

/**
 * 演示文件操作
 */
int demo_file_operations() {
    struct io_uring ring;
    int ret;
    
    printf("=== 文件操作演示 ===\n");
    
    // 初始化io_uring
    printf("1. 初始化io_uring:\n");
    ret = io_uring_queue_init(16, &ring, 0);
    if (ret < 0) {
        printf("  初始化失败: %s\n", strerror(-ret));
        return -1;
    }
    printf("  ✓ io_uring初始化成功\n");
    
    // 演示异步文件打开
    printf("\n2. 异步文件打开操作:\n");
    const char *test_filename = "async_file_test.txt";
    
    struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
    if (!sqe) {
        printf("  获取SQE失败\n");
        io_uring_queue_exit(&ring);
        return -1;
    }
    
    // 准备打开文件操作
    io_uring_prep_openat(sqe, AT_FDCWD, test_filename, 
                        O_CREAT | O_RDWR | O_TRUNC, 0644);
    sqe->user_data = 1;
    
    printf("  准备打开文件: %s\n", test_filename);
    
    ret = io_uring_submit(&ring);
    if (ret <= 0) {
        printf("  提交打开操作失败: %s\n", strerror(-ret));
        io_uring_queue_exit(&ring);
        return -1;
    }
    
    // 等待打开完成
    struct io_uring_cqe *cqe;
    ret = io_uring_wait_cqe(&ring, &cqe);
    if (ret < 0) {
        printf("  等待打开完成失败: %s\n", strerror(-ret));
        io_uring_queue_exit(&ring);
        return -1;
    }
    
    int file_fd = cqe->res;
    printf("  ✓ 文件打开成功，文件描述符: %d\n", file_fd);
    io_uring_cqe_seen(&ring, cqe);
    
    // 演示异步写入操作
    printf("\n3. 异步写入操作:\n");
    const char *write_data = "This is asynchronous write test data.\nMultiple lines of test content.\nEnd of test data.\n";
    size_t write_size = strlen(write_data);
    
    sqe = io_uring_get_sqe(&ring);
    if (!sqe) {
        printf("  获取SQE失败\n");
        close(file_fd);
        unlink(test_filename);
        io_uring_queue_exit(&ring);
        return -1;
    }
    
    io_uring_prep_write(sqe, file_fd, write_data, write_size, 0);
    sqe->user_data = 2;
    
    printf("  准备写入数据: %zu 字节\n", write_size);
    
    ret = io_uring_submit(&ring);
    if (ret <= 0) {
        printf("  提交写入操作失败: %s\n", strerror(-ret));
    } else {
        printf("  ✓ 写入操作提交成功\n");
    }
    
    // 等待写入完成
    ret = io_uring_wait_cqe(&ring, &cqe);
    if (ret < 0) {
        printf("  等待写入完成失败: %s\n", strerror(-ret));
    } else {
        printf("  ✓ 写入完成: %d 字节\n", cqe->res);
        io_uring_cqe_seen(&ring, cqe);
    }
    
    // 演示异步fsync操作
    printf("\n4. 异步fsync操作:\n");
    sqe = io_uring_get_sqe(&ring);
    if (sqe) {
        io_uring_prep_fsync(sqe, file_fd, 0);
        sqe->user_data = 3;
        
        printf("  准备fsync操作\n");
        
        ret = io_uring_submit(&ring);
        if (ret > 0) {
            ret = io_uring_wait_cqe(&ring, &cqe);
            if (ret == 0) {
                printf("  ✓ fsync完成\n");
                io_uring_cqe_seen(&ring, cqe);
            }
        }
    }
    
    // 演示异步读取操作
    printf("\n5. 异步读取操作:\n");
    char read_buffer[256];
    
    sqe = io_uring_get_sqe(&ring);
    if (sqe) {
        io_uring_prep_read(sqe, file_fd, read_buffer, sizeof(read_buffer) - 1, 0);
        sqe->user_data = 4;
        
        printf("  准备读取操作\n");
        
        ret = io_uring_submit(&ring);
        if (ret > 0) {
            ret = io_uring_wait_cqe(&ring, &cqe);
            if (ret == 0) {
                if (cqe->res > 0) {
                    read_buffer[cqe->res] = '\0';
                    printf("  ✓ 读取完成: %d 字节\n", cqe->res);
                    printf("  读取内容:\n%s", read_buffer);
                } else {
                    printf("  读取失败或文件为空\n");
                }
                io_uring_cqe_seen(&ring, cqe);
            }
        }
    }
    
    // 演示异步关闭操作
    printf("\n6. 异步关闭操作:\n");
    sqe = io_uring_get_sqe(&ring);
    if (sqe) {
        io_uring_prep_close(sqe, file_fd);
        sqe->user_data = 5;
        
        printf("  准备关闭文件\n");
        
        ret = io_uring_submit(&ring);
        if (ret > 0) {
            ret = io_uring_wait_cqe(&ring, &cqe);
            if (ret == 0) {
                printf("  ✓ 文件关闭完成\n");
                io_uring_cqe_seen(&ring, cqe);
            }
        }
    }
    
    // 清理资源
    printf("\n7. 清理资源:\n");
    unlink(test_filename);
    io_uring_queue_exit(&ring);
    printf("  ✓ 资源清理完成\n");
    
    return 0;
}

int main() {
    return demo_file_operations();
}

示例4：网络I/O演示

#include <liburing.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>

/**
 * 演示网络I/O操作
 */
int demo_network_io() {
    struct io_uring ring;
    int ret;
    
    printf("=== 网络I/O操作演示 ===\n");
    
    // 初始化io_uring
    printf("1. 初始化io_uring:\n");
    ret = io_uring_queue_init(32, &ring, 0);
    if (ret < 0) {
        printf("  初始化失败: %s\n", strerror(-ret));
        return -1;
    }
    printf("  ✓ io_uring初始化成功\n");
    
    // 演示异步socket创建
    printf("\n2. 异步socket创建:\n");
    struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
    if (!sqe) {
        printf("  获取SQE失败\n");
        io_uring_queue_exit(&ring);
        return -1;
    }
    
    // 注意：io_uring的网络I/O支持需要较新的内核版本
    printf("  注意：网络I/O操作需要Linux 5.5+内核支持\n");
    printf("  在本演示中，我们将展示准备网络操作的方法\n");
    
    // 演示网络操作准备（伪代码）
    printf("\n3. 网络操作准备示例:\n");
    printf("  // 创建TCP socket\n");
    printf("  sqe = io_uring_get_sqe(&ring);\n");
    printf("  io_uring_prep_socket(sqe, AF_INET, SOCK_STREAM, 0, 0);\n");
    printf("  sqe->user_data = 1;\n");
    printf("\n");
    
    printf("  // 连接服务器\n");
    printf("  struct sockaddr_in addr;\n");
    printf("  memset(&addr, 0, sizeof(addr));\n");
    printf("  addr.sin_family = AF_INET;\n");
    printf("  addr.sin_port = htons(80);\n");
    printf("  addr.sin_addr.s_addr = inet_addr(\"127.0.0.1\");\n");
    printf("  io_uring_prep_connect(sqe, sockfd, &addr, sizeof(addr));\n");
    printf("\n");
    
    printf("  // 发送数据\n");
    printf("  const char *data = \"GET / HTTP/1.1\\r\\n\\r\\n\";\n");
    printf("  io_uring_prep_send(sqe, sockfd, data, strlen(data), 0);\n");
    printf("\n");
    
    printf("  // 接收数据\n");
    printf("  char buffer[1024];\n");
    printf("  io_uring_prep_recv(sqe, sockfd, buffer, sizeof(buffer), 0);\n");
    
    // 显示网络I/O优势
    printf("\n=== 网络I/O优势 ===\n");
    printf("1. 高性能:\n");
    printf("   ✓ 零拷贝数据传输\n");
    printf("   ✓ 减少系统调用开销\n");
    printf("   ✓ 提高并发处理能力\n");
    
    printf("\n2. 低延迟:\n");
    printf("   ✓ 快速事件通知\n");
    printf("   ✓ 减少上下文切换\n");
    printf("   ✓ 优化内存访问模式\n");
    
    printf("\n3. 可扩展性:\n");
    printf("   ✓ 支持大量并发连接\n");
    printf("   ✓ 高效的事件处理\n");
    printf("   ✓ 灵活的缓冲区管理\n");
    
    // 清理资源
    printf("\n4. 清理资源:\n");
    io_uring_queue_exit(&ring);
    printf("  ✓ io_uring资源清理完成\n");
    
    return 0;
}

int main() {
    return demo_network_io();
}

示例5：性能对比测试

#include <liburing.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>
#include <sys/time.h>
#include <time.h>

/**
 * 性能测试结果结构
 */
typedef struct {
    const char *test_name;
    long long execution_time_us;
    int operation_count;
    double throughput_ops;
    double average_latency_us;
} performance_result_t;

/**
 * 获取当前时间（微秒）
 */
long long get_current_time_us() {
    struct timeval tv;
    gettimeofday(&tv, NULL);
    return tv.tv_sec * 1000000LL + tv.tv_usec;
}

/**
 * 传统同步I/O性能测试
 */
int test_sync_io_performance(performance_result_t *result) {
    const int operation_count = 1000;
    const size_t buffer_size = 4096;
    char *buffer = malloc(buffer_size);
    long long start_time, end_time;
    
    if (!buffer) {
        return -1;
    }
    
    printf("执行同步I/O性能测试...\n");
    
    // 创建测试文件
    const char *filename = "sync_test.dat";
    int fd = open(filename, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd == -1) {
        free(buffer);
        return -1;
    }
    
    start_time = get_current_time_us();
    
    // 执行同步写入操作
    for (int i = 0; i < operation_count; i++) {
        // 填充测试数据
        for (size_t j = 0; j < buffer_size; j++) {
            buffer[j] = 'A' + (i + j) % 26;
        }
        
        ssize_t written = write(fd, buffer, buffer_size);
        if (written != (ssize_t)buffer_size) {
            printf("写入失败\n");
            close(fd);
            unlink(filename);
            free(buffer);
            return -1;
        }
    }
    
    end_time = get_current_time_us();
    
    close(fd);
    unlink(filename);
    free(buffer);
    
    result->execution_time_us = end_time - start_time;
    result->operation_count = operation_count;
    result->throughput_ops = (double)operation_count / (result->execution_time_us / 1000000.0);
    result->average_latency_us = (double)result->execution_time_us / operation_count;
    
    printf("同步I/O测试完成\n");
    return 0;
}

/**
 * io_uring异步I/O性能测试
 */
int test_io_uring_performance(performance_result_t *result) {
    struct io_uring ring;
    const int operation_count = 1000;
    const size_t buffer_size = 4096;
    char **buffers;
    long long start_time, end_time;
    int ret;
    
    printf("执行io_uring异步I/O性能测试...\n");
    
    // 初始化io_uring
    ret = io_uring_queue_init(256, &ring, 0);
    if (ret < 0) {
        printf("io_uring初始化失败: %s\n", strerror(-ret));
        return -1;
    }
    
    // 分配缓冲区
    buffers = malloc(operation_count * sizeof(char*));
    if (!buffers) {
        io_uring_queue_exit(&ring);
        return -1;
    }
    
    for (int i = 0; i < operation_count; i++) {
        buffers[i] = malloc(buffer_size);
        if (!buffers[i]) {
            // 清理已分配的缓冲区
            for (int j = 0; j < i; j++) {
                free(buffers[j]);
            }
            free(buffers);
            io_uring_queue_exit(&ring);
            return -1;
        }
        
        // 填充测试数据
        for (size_t j = 0; j < buffer_size; j++) {
            buffers[i][j] = 'A' + (i + j) % 26;
        }
    }
    
    // 创建测试文件
    const char *filename = "async_test.dat";
    int fd = open(filename, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd == -1) {
        perror("创建测试文件失败");
        // 清理缓冲区
        for (int i = 0; i < operation_count; i++) {
            free(buffers[i]);
        }
        free(buffers);
        io_uring_queue_exit(&ring);
        return -1;
    }
    
    start_time = get_current_time_us();
    
    // 提交异步写入操作
    int submitted = 0;
    for (int i = 0; i < operation_count; i++) {
        struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
        if (!sqe) {
            printf("获取SQE失败\n");
            break;
        }
        
        io_uring_prep_write(sqe, fd, buffers[i], buffer_size, i * buffer_size);
        sqe->user_data = i;
        
        submitted++;
        
        // 定期提交操作
        if (submitted % 32 == 0 || i == operation_count - 1) {
            ret = io_uring_submit(&ring);
            if (ret < 0) {
                printf("提交操作失败: %s\n", strerror(-ret));
                break;
            }
        }
    }
    
    printf("提交了 %d 个异步操作\n", submitted);
    
    // 等待所有操作完成
    int completed = 0;
    while (completed < submitted) {
        struct io_uring_cqe *cqe;
        ret = io_uring_wait_cqe(&ring, &cqe);
        if (ret < 0) {
            printf("等待完成事件失败: %s\n", strerror(-ret));
            break;
        }
        
        completed++;
        io_uring_cqe_seen(&ring, cqe);
    }
    
    end_time = get_current_time_us();
    
    printf("完成了 %d 个异步操作\n", completed);
    
    // 清理资源
    close(fd);
    unlink(filename);
    
    for (int i = 0; i < operation_count; i++) {
        free(buffers[i]);
    }
    free(buffers);
    io_uring_queue_exit(&ring);
    
    result->execution_time_us = end_time - start_time;
    result->operation_count = completed;
    result->throughput_ops = (double)completed / (result->execution_time_us / 1000000.0);
    result->average_latency_us = (double)result->execution_time_us / completed;
    
    printf("io_uring异步I/O测试完成\n");
    return 0;
}

/**
 * 演示性能对比测试
 */
int demo_performance_comparison() {
    performance_result_t sync_result = {0};
    performance_result_t async_result = {0};
    
    printf("=== io_uring vs 同步I/O 性能对比 ===\n");
    
    // 设置测试结果名称
    sync_result.test_name = "同步I/O";
    async_result.test_name = "io_uring异步I/O";
    
    // 执行同步I/O测试
    printf("1. 执行同步I/O测试:\n");
    if (test_sync_io_performance(&sync_result) != 0) {
        printf("  同步I/O测试失败\n");
        return -1;
    }
    
    printf("  测试完成\n");
    
    // 执行io_uring测试
    printf("\n2. 执行io_uring异步I/O测试:\n");
    if (test_io_uring_performance(&async_result) != 0) {
        printf("  io_uring测试失败\n");
        return -1;
    }
    
    printf("  测试完成\n");
    
    // 显示测试结果
    printf("\n=== 性能测试结果 ===\n");
    printf("%-20s %-15s %-15s %-15s %-15s\n",
           "测试类型", "操作次数", "耗时(μs)", "吞吐量(ops/s)", "平均延迟(μs)");
    printf("%-20s %-15s %-15s %-15s %-15s\n",
           "--------", "--------", "--------", "------------", "------------");
    
    printf("%-20s %-15d %-15lld %-15.0f %-15.2f\n",
           sync_result.test_name,
           sync_result.operation_count,
           sync_result.execution_time_us,
           sync_result.throughput_ops,
           sync_result.average_latency_us);
    
    printf("%-20s %-15d %-15lld %-15.0f %-15.2f\n",
           async_result.test_name,
           async_result.operation_count,
           async_result.execution_time_us,
           async_result.throughput_ops,
           async_result.average_latency_us);
    
    // 性能对比分析
    printf("\n=== 性能对比分析 ===\n");
    if (sync_result.execution_time_us > 0 && async_result.execution_time_us > 0) {
        double time_improvement = (double)sync_result.execution_time_us / async_result.execution_time_us;
        double throughput_improvement = async_result.throughput_ops / sync_result.throughput_ops;
        double latency_reduction = (sync_result.average_latency_us - async_result.average_latency_us) / 
                                  sync_result.average_latency_us * 100;
        
        printf("执行时间对比: %.2f 倍提升\n", time_improvement);
        printf("吞吐量对比: %.2f 倍提升\n", throughput_improvement);
        printf("平均延迟减少: %.1f%%\n", latency_reduction);
    }
    
    // 显示优势分析
    printf("\n=== 优势分析 ===\n");
    printf("1. io_uring优势:\n");
    printf("   ✓ 零拷贝数据传输\n");
    printf("   ✓ 减少系统调用次数\n");
    printf("   ✓ 提高I/O并发性能\n");
    printf("   ✓ 更好的CPU利用率\n");
    
    printf("\n2. 适用场景:\n");
    printf("   ✓ 高并发网络服务器\n");
    printf("   ✓ 大文件传输应用\n");
    printf("   ✓ 实时数据处理\n");
    printf("   ✓ 数据库存储引擎\n");
    
    printf("\n3. 性能优化建议:\n");
    printf("   ✓ 合理设置环形缓冲区大小\n");
    printf("   ✓ 批量提交I/O操作\n");
    printf("   ✓ 使用适当的等待策略\n");
    printf("   ✓ 监控系统资源使用\n");
    
    return 0;
}

int main() {
    return demo_performance_comparison();
}

io_uring 使用注意事项

系统要求：

内核版本: 需要Linux 5.1或更高版本
架构支持: 支持所有主流架构
编译要求: 需要liburing库支持

初始化选项：

IORING_SETUP_IOPOLL: 启用I/O轮询模式
IORING_SETUP_SQPOLL: 启用提交队列轮询
IORING_SETUP_SQ_AFF: 设置提交队列CPU亲和性
IORING_SETUP_CQSIZE: 设置完成队列大小

错误处理：

负返回值: 表示错误码
errno设置: 传统错误码机制
完成事件: 通过cqe->res返回结果

性能考虑：

缓冲区大小: 合理设置环形缓冲区大小
批量操作: 批量提交提高效率
内存管理: 避免频繁的内存分配
CPU亲和性: 考虑CPU绑定优化

安全考虑：

权限检查: 确保有足够的权限
资源限制: 避免消耗过多系统资源
输入验证: 验证所有输入参数
错误恢复: 妥善处理各种错误情况

最佳实践：

环境检查: 使用前检查内核支持
参数验证: 验证所有输入参数
错误处理: 妥善处理各种错误
资源管理: 及时释放分配的资源
性能监控: 监控性能指标并优化

io_uring vs 传统AIO对比

传统AIO限制：

// 传统AIO接口
#include <linux/aio_abi.h>
int io_setup(unsigned nr_events, aio_context_t *ctxp);
int io_destroy(aio_context_t ctx);
int io_submit(aio_context_t ctx, long nr, struct iocb *ios[]);
int io_cancel(aio_context_t ctx, struct iocb *iocb, struct io_event *result);
int io_getevents(aio_context_t ctx, long min_nr, long nr, 
                 struct io_event *events, struct timespec *timeout);

io_uring优势：

// io_uring接口
#include <liburing.h>
int io_uring_queue_init(unsigned entries, struct io_uring *ring, unsigned flags);
int io_uring_queue_exit(struct io_uring *ring);
int io_uring_submit(struct io_uring *ring);
int io_uring_wait_cqe(struct io_uring *ring, struct io_uring_cqe **cqe_ptr);

性能对比数据

系统调用开销：

传统AIO: 每次操作需要多个系统调用
io_uring: 批量操作减少系统调用次数

内存拷贝：

传统AIO: 需要多次内存拷贝
io_uring: 零拷贝数据传输

并发性能：

传统AIO: 并发性能有限
io_uring: 高并发性能优异

常见使用场景

1. 网络服务器：

// 高性能网络服务器
struct io_uring ring;
io_uring_queue_init(4096, &ring, 0);

// 批量处理网络请求
for (int i = 0; i < connections; i++) {
    struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
    io_uring_prep_recv(sqe, conn_fd[i], buffer[i], buffer_size, 0);
}

io_uring_submit(&ring);

2. 存储系统：

// 高性能存储系统
struct io_uring ring;
io_uring_queue_init(8192, &ring, IORING_SETUP_IOPOLL);

// 批量存储操作
for (int i = 0; i < io_count; i++) {
    struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
    io_uring_prep_write(sqe, fd, data[i], size[i], offset[i]);
}

io_uring_submit(&ring);

3. 数据库引擎：

// 数据库存储引擎
struct io_uring ring;
io_uring_queue_init(2048, &ring, 0);

// 并发数据页读写
for (int i = 0; i < pages; i++) {
    struct io_uring_sqe *sqe = io_uring_get_sqe(&ring);
    io_uring_prep_read(sqe, fd, page_buffer[i], page_size, page_offset[i]);
}

io_uring_submit(&ring);

总结

io_uring 是Linux系统中先进的异步I/O框架，提供了：

高性能: 显著优于传统AIO的性能
易用性: 简化的API设计
灵活性: 丰富的操作类型支持
可扩展性: 支持大规模并发操作

通过合理使用io_uring，可以构建高性能的I/O密集型应用。在实际应用中，需要注意内核版本要求、错误处理和性能优化等关键问题。

发表在 linux文章 | 留下评论

io_submit系统调用及示例

发表于2025-08-03由麦芽爸

`io_submit`系统调用及示例

1. 函数介绍

在使用 io_setup 创建了异步 I/O 上下文之后，下一步就是向这个上下文提交实际的 I/O 请求。

io_submit 系统调用的作用就是将一个或多个异步 I/O 请求提交到指定的异步 I/O 上下文中。每个请求都由一个 struct iocb（I/O Control Block）结构体描述，该结构体包含了操作类型（读/写/同步）、文件描述符、缓冲区地址、读写字节数、文件偏移量等所有必需的信息。

提交后，内核会接管这些请求，并在后台（可能使用专门的线程或机制）执行这些 I/O 操作。调用 io_submit 的进程可以立即继续执行，无需等待 I/O 完成。

简单来说，io_submit 就是把写好的“异步任务清单”（iocb 结构体）交给之前创建的“任务管理器”（io_context_t），让它开始执行这些任务。

2. 函数原型

// 需要定义宏来启用 AIO 相关定义
#define _GNU_SOURCE
#include <linux/aio_abi.h> // 包含 iocb 等定义
#include <sys/syscall.h>   // 包含系统调用号
#include <unistd.h>        // 包含 syscall 函数

// io_submit 系统调用的实际接口
long syscall(SYS_io_submit, io_context_t ctx_id, long nr, struct iocb **iocbpp);

注意：这也是一个底层系统调用，通常需要通过 syscall() 函数调用。

3. 功能

将 nr 个异步 I/O 请求（由 iocbpp 指向的数组描述）提交到由 ctx_id 标识的异步 I/O 上下文中。内核会尝试立即开始处理这些请求。

4. 参数

ctx_id:
- io_context_t 类型。
- 由 io_setup 返回的、有效的异步 I/O 上下文的标识符。
nr:
- long 类型。
- 指定要提交的异步 I/O 请求数量。这个值应该与 iocbpp 数组的大小相对应。
iocbpp:
- struct iocb ** 类型。
- 一个指针数组，数组中的每个元素都指向一个 struct iocb 结构体。struct iocb 描述了一个单独的异步 I/O 请求。
- 数组的大小至少为 nr。

5. `struct iocb` 结构体 (关键部分)

这是描述单个异步 I/O 请求的核心结构体。

// 简化版，实际定义在 linux/aio_abi.h
struct iocb {
    __u64 aio_data;          // 用户定义的数据，用于匹配请求和完成事件
    __u32 aio_key, aio_reserved1;
    __u16 aio_lio_opcode;    // 操作类型 (IOCB_CMD_PREAD, IOCB_CMD_PWRITE, ...)
    __s16 aio_reqprio;       // 请求优先级 (通常为 0)
    __u32 aio_fildes;        // 文件描述符
    __u64 aio_buf;           // 用户空间缓冲区地址
    __u64 aio_nbytes;        // 传输字节数
    __s64 aio_offset;        // 文件偏移量
    // ... 其他字段用于高级功能
};

关键字段：

aio_lio_opcode: 指定操作类型。
- IOCB_CMD_PREAD: 异步预读（指定偏移量的读取）。
- IOCB_CMD_PWRITE: 异步预写（指定偏移量的写入）。
- IOCB_CMD_FSYNC: 异步文件数据和元数据同步。
- IOCB_CMD_FDSYNC: 异步文件数据同步。
aio_fildes: 进行 I/O 操作的目标文件描述符。
aio_buf: 用户空间缓冲区的地址（读取时存放数据，写入时提供数据）。
aio_nbytes: 要传输（读取或写入）的字节数。
aio_offset: 文件中的偏移量（类似 pread/pwrite）。
aio_data: 用户自定义数据。当这个请求完成后，对应的完成事件 (io_event) 会包含这个值，方便程序识别是哪个请求完成了。

6. 返回值

成功: 返回实际成功提交的请求数（一个非负整数，可能小于或等于 nr）。
失败: 返回 -1，并设置 errno。如果返回一个 0 到 nr 之间的正数 m，则表示只有数组中前 m 个请求被成功提交，后面的提交失败了。

7. 错误码 (`errno`)

EAGAIN: 资源暂时不可用，例如内核的提交队列已满。
EBADF: ctx_id 无效，或者 iocbpp 中某个 iocb 的 aio_fildes 是无效的文件描述符。
EINVAL: ctx_id 无效，或者 iocbpp 中某个 iocb 的参数无效（例如 aio_lio_opcode 未知，或 nr 为负数）。
ENOMEM: 内存不足。

8. 相似函数或关联函数

io_setup: 创建异步 I/O 上下文，是 io_submit 的前置步骤。
io_getevents: 用于获取已提交请求的完成状态（事件）。
io_cancel: 尝试取消一个已提交但尚未完成的 I/O 请求。
struct iocb: 描述单个异步 I/O 请求的结构体。

9. 示例代码

下面的示例演示如何使用 io_setup 创建上下文，然后使用 io_submit 提交异步写入请求。

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>
#include <sys/stat.h>
#include <linux/aio_abi.h>
#include <sys/syscall.h>

// 封装 io_setup 系统调用
static inline int my_io_setup(unsigned nr_events, io_context_t *ctxp) {
    return syscall(__NR_io_setup, nr_events, ctxp);
}

// 封装 io_destroy 系统调用
static inline int my_io_destroy(io_context_t ctx) {
    return syscall(__NR_io_destroy, ctx);
}

// 封装 io_submit 系统调用
static inline int my_io_submit(io_context_t ctx, long nr, struct iocb **iocbpp) {
    return syscall(__NR_io_submit, ctx, nr, iocbpp);
}

// 辅助函数：初始化一个异步写入的 iocb 结构
void prep_pwrite(struct iocb *iocb, int fd, const void *buf, size_t count, __u64 offset) {
    memset(iocb, 0, sizeof(*iocb)); // 清零结构体
    iocb->aio_lio_opcode = IOCB_CMD_PWRITE; // 设置操作类型为异步写
    iocb->aio_fildes = fd;                 // 设置文件描述符
    iocb->aio_buf = (__u64)(unsigned long)buf; // 设置缓冲区地址
    iocb->aio_nbytes = count;              // 设置写入字节数
    iocb->aio_offset = offset;             // 设置文件偏移量
    iocb->aio_data = (__u64)(unsigned long)buf; // 设置用户数据 (这里用 buf 地址)
}

int main() {
    const char *filename = "io_submit_test_file.txt";
    const int num_writes = 3;
    const size_t chunk_size = 1024;
    int fd;
    io_context_t ctx = 0; // 必须初始化为 0
    struct iocb iocbs[num_writes];
    struct iocb *iocb_ptrs[num_writes];
    char buffers[num_writes][chunk_size];
    int ret, i;

    printf("--- Demonstrating io_submit ---\n");

    // 1. 初始化要写入的数据
    for (i = 0; i < num_writes; ++i) {
        memset(buffers[i], 'A' + i, chunk_size); // Fill with 'A', 'B', 'C'
    }

    // 2. 创建并打开文件
    fd = open(filename, O_CREAT | O_TRUNC | O_WRONLY, 0644);
    if (fd == -1) {
        perror("open");
        exit(EXIT_FAILURE);
    }
    printf("1. Opened/created file '%s' (fd=%d)\n", filename, fd);

    // 3. 初始化异步 I/O 上下文
    ret = my_io_setup(num_writes, &ctx);
    if (ret < 0) {
        perror("io_setup");
        close(fd);
        exit(EXIT_FAILURE);
    }
    printf("2. Initialized AIO context (ctx_id=%llu)\n", (unsigned long long)ctx);

    // 4. 准备 I/O 请求 (iocb)
    printf("3. Preparing %d asynchronous write requests...\n", num_writes);
    for (i = 0; i < num_writes; ++i) {
        prep_pwrite(&iocbs[i], fd, buffers[i], chunk_size, i * chunk_size);
        iocb_ptrs[i] = &iocbs[i];
        printf("   Prepared write %d: offset=%zu, size=%zu, data='%c'...\n",
               i+1, i * chunk_size, chunk_size, 'A' + i);
    }

    // 5. 提交 I/O 请求
    printf("4. Submitting %d write requests using io_submit...\n", num_writes);
    ret = my_io_submit(ctx, num_writes, iocb_ptrs);
    if (ret != num_writes) {
        fprintf(stderr, "   io_submit failed: submitted %d requests, expected %d\n", ret, num_writes);
        if (ret < 0) {
            perror("   io_submit error");
        } else {
            printf("   Only the first %d requests were submitted successfully.\n", ret);
        }
        // 清理并退出
        my_io_destroy(ctx);
        close(fd);
        unlink(filename);
        exit(EXIT_FAILURE);
    }

    printf("   io_submit succeeded. All %d requests submitted.\n", ret);

    // 6. 注意：此时写入操作可能仍在进行中，我们需要用 io_getevents 来等待完成
    // 这个例子只演示提交，不等待完成。
    printf("5. Note: io_submit returned immediately. The writes are happening in the background.\n");
    printf("   To get the results, you need to call io_getevents().\n");

    // 7. 清理资源 (在真实程序中，你应该在 io_getevents 确认完成后再关闭文件)
    printf("6. Cleaning up resources...\n");
    my_io_destroy(ctx);
    printf("   Destroyed AIO context.\n");
    close(fd);
    printf("   Closed file descriptor.\n");
    unlink(filename); // 删除测试文件
    printf("   Deleted test file '%s'.\n", filename);

    printf("\n--- Summary ---\n");
    printf("1. io_submit(ctx_id, nr, iocb_ptrs) submits 'nr' AIO requests to the context 'ctx_id'.\n");
    printf("2. Each request is described by an 'iocb' struct, pointed to by elements in 'iocb_ptrs'.\n");
    printf("3. It returns the number of requests successfully submitted (may be < nr on partial failure).\n");
    printf("4. It returns immediately; the I/O happens asynchronously in the background.\n");
    printf("5. Use io_getevents() afterwards to check for completion and get results.\n");

    return 0;
}

10. 编译和运行

# 假设代码保存在 io_submit_example.c 中
gcc -o io_submit_example io_submit_example.c

# 运行程序
./io_submit_example

11. 预期输出

--- Demonstrating io_submit ---
1. Opened/created file 'io_submit_test_file.txt' (fd=3)
2. Initialized AIO context (ctx_id=123456789)
3. Preparing 3 asynchronous write requests...
   Prepared write 1: offset=0, size=1024, data='A'...
   Prepared write 2: offset=1024, size=1024, data='B'...
   Prepared write 3: offset=2048, size=1024, data='C'...
4. Submitting 3 write requests using io_submit...
   io_submit succeeded. All 3 requests submitted.
5. Note: io_submit returned immediately. The writes are happening in the background.
   To get the results, you need to call io_getevents().
6. Cleaning up resources...
   Destroyed AIO context.
   Closed file descriptor.
   Deleted test file 'io_submit_test_file.txt'.

--- Summary ---
1. io_submit(ctx_id, nr, iocb_ptrs) submits 'nr' AIO requests to the context 'ctx_id'.
2. Each request is described by an 'iocb' struct, pointed to by elements in 'iocb_ptrs'.
3. It returns the number of requests successfully submitted (may be < nr on partial failure).
4. It returns immediately; the I/O happens asynchronously in the background.
5. Use io_getevents() afterwards to check for completion and get resu

发表在 linux文章 | 留下评论

io_setup/io_submit系统调用及示例

发表于2025-08-03由麦芽爸

我们来深入学习 io_setup 和 io_submit 系统调用，从 Linux 编程小白的角度出发。

1. 函数介绍

在 Linux 系统编程中，进行文件 I/O 操作（如 read, write）通常是同步的。这意味着当你的程序调用 read(fd, buffer, size) 时，程序会一直等待，直到内核从磁盘（或网络、设备等）读取完数据并放入 buffer 中，然后 read 函数才返回。如果数据读取很慢（例如从机械硬盘读取大量数据），你的程序就会在这段时间内卡住，无法执行其他任务。

为了提高性能，特别是对于高并发的服务器程序，Linux 提供了异步 I/O (Asynchronous I/O, AIO) 机制。核心思想是：

提交请求：你告诉内核：“请帮我从文件描述符 fd 读取数据到 buffer”，然后你的程序立即返回，可以去做其他事情。
内核处理：内核在后台执行这个读取操作。
获取结果：过一段时间后，你再询问内核：“之前那个读取操作完成了吗？”。如果完成了，内核会告诉你结果（读取了多少字节，是否出错等）。

io_setup 和 io_submit 就是这个异步 I/O 机制的第一步和第二步。

io_setup: 创建一个异步 I/O 上下文 (context)。你可以把它想象成一个“工作队列”或“任务列表”的管理器。所有你提交给这个上下文的异步 I/O 请求都会被它管理。
io_submit: 提交一个或多个异步 I/O 请求（读、写等）到一个已创建的上下文中。内核会接收这些请求，并在后台开始执行它们。

简单来说：

io_setup：创建一个“异步任务管理器”。
io_submit：把“异步任务”（读/写文件）交给这个“管理器”去执行。

2. 函数原型

// 需要定义宏来启用 AIO
#define _GNU_SOURCE
#include <linux/aio_abi.h> // 包含 AIO 相关结构体和常量 (io_context_t, iocb)
#include <sys/syscall.h>   // 包含 syscall 函数和系统调用号
#include <unistd.h>        // 包含 syscall 函数

// io_setup 系统调用
long syscall(SYS_io_setup, unsigned nr_events, io_context_t *ctxp);

// io_submit 系统调用
long syscall(SYS_io_submit, io_context_t ctx_id, long nr, struct iocb **iocbpp);

注意：

这些是底层系统调用。标准 C 库（glibc）可能不直接提供用户友好的包装函数。
通常需要通过 syscall() 函数并传入系统调用号来调用它们。
需要包含 linux/aio_abi.h 头文件来获取相关结构体和类型定义。

3. 功能

io_setup: 初始化一个异步 I/O 上下文，该上下文能够处理最多 nr_events 个并发的异步 I/O 操作，并将上下文的标识符（句柄）存储在 ctxp 指向的变量中。
io_submit: 将 nr 个异步 I/O 请求（由 iocbpp 数组指向）提交到由 ctx_id 标识的异步 I/O 上下文中。内核会尝试立即开始处理这些请求。

4. 参数详解

`io_setup(unsigned nr_events, io_context_t *ctxp)`

nr_events:
- unsigned 类型。
- 指定这个异步 I/O 上下文最多可以同时处理多少个未完成的异步 I/O 请求（事件）。这相当于预分配了资源来跟踪这些请求。
- 内核可能会将这个值向上舍入到内部优化所需的大小。
ctxp:
- io_context_t * 类型。
- 一个指向 io_context_t 类型变量的指针。io_setup 调用成功后，会将新创建的异步 I/O 上下文的标识符（或句柄）写入到这个变量中。后续的 io_submit, io_getevents 等操作都需要使用这个 ctx_id。

`io_submit(io_context_t ctx_id, long nr, struct iocb **iocbpp)`

ctx_id:
- io_context_t 类型。
- 由 io_setup 返回的异步 I/O 上下文的标识符。
nr:
- long 类型。
- 指定要提交的异步 I/O 请求数量。这个值应该与 iocbpp 数组的大小相对应。
iocbpp:
- struct iocb ** 类型。
- 一个指针数组，数组中的每个元素都指向一个 struct iocb 结构体。struct iocb（I/O Control Block）描述了一个单独的异步 I/O 请求。
- 数组的大小至少为 nr。

5. `struct iocb` 结构体

这是描述单个异步 I/O 请求的核心结构体。你需要为每个你想要提交的异步操作（如一次读取或写入）填充一个 iocb 结构体。

// 这是 linux/aio_abi.h 中定义的简化版结构
struct iocb {
    __u64 aio_data;          // 用户定义的数据，通常用于匹配请求和完成事件
    __u32 aio_key, aio_reserved1;

    __u16 aio_lio_opcode;    // 操作类型：IOCB_CMD_PREAD, IOCB_CMD_PWRITE 等
    __s16 aio_reqprio;       // 请求优先级 (通常保留为 0)
    __u32 aio_fildes;        // 文件描述符

    __u64 aio_buf;           // 缓冲区地址 (用户空间指针)
    __u64 aio_nbytes;        // 传输字节数
    __s64 aio_offset;        // 文件偏移量
    // ... 还有其他字段，用于更高级的功能
};

关键字段：

aio_lio_opcode: 指定操作类型。
- IOCB_CMD_PREAD: 异步预读（Positioned Read）。
- IOCB_CMD_PWRITE: 异步预写（Positioned Write）。
- IOCB_CMD_FSYNC: 异步同步文件数据和元数据。
- IOCB_CMD_FDSYNC: 异步同步文件数据。
aio_fildes: 进行 I/O 操作的文件描述符。
aio_buf: 用户空间缓冲区的地址。
aio_nbytes: 要读取或写入的字节数。
aio_offset: 文件中的偏移量（类似 pread/pwrite）。
aio_data: 用户自定义数据。当这个请求完成后，对应的完成事件 (io_event) 会包含这个值，方便你识别是哪个请求完成了。

6. 返回值

io_setup:
- 成功: 返回 0。
- 失败: 返回 -1，并设置 errno。
io_submit:
- 成功: 返回实际提交成功的请求数（一个非负整数，可能小于或等于 nr）。
- 失败: 返回 -1，并设置 errno。如果返回值是 0 到 nr 之间的正数 m，则表示只有前 m 个请求被成功提交，后面的请求提交失败。

7. 错误码 (`errno`)

`io_setup`

EAGAIN: 内核资源不足，无法创建新的上下文，或者达到用户/系统范围内的 AIO 上下文数量限制。
EINVAL: nr_events 为 0。
ENOMEM: 内存不足。

`io_submit`

EAGAIN: 资源暂时不可用，例如提交队列已满。
EBADF: ctx_id 无效，或者 iocbpp 中某个 iocb 的 aio_fildes 是无效的文件描述符。
EINVAL: ctx_id 无效，或者 iocbpp 中某个 iocb 的参数无效（例如 aio_lio_opcode 未知）。
ENOMEM: 内存不足。

8. 相似函数或关联函数

io_getevents: 用于从异步 I/O 上下文中获取已完成的 I/O 事件。
io_destroy: 用于销毁一个异步 I/O 上下文。
io_cancel: 用于尝试取消一个已提交但尚未完成的 I/O 请求。
struct io_context_t: 异步 I/O 上下文的类型。
struct iocb: 描述单个异步 I/O 请求的结构体。
struct io_event: 描述单个已完成 I/O 事件的结构体。
io_uring: Linux 5.1+ 引入的更现代、更高效的异步 I/O 接口。

9. 示例代码

下面的示例演示了如何使用 io_setup 和 io_submit 来执行基本的异步 I/O 操作，并使用 io_getevents 来获取结果。

警告：Linux 原生 AIO (io_uring 之前的 AIO) 对于文件 I/O 的支持在某些场景下（如 buffered I/O）可能退化为同步操作。对于高性能异步 I/O，现代推荐使用 io_uring。此处仅为演示 io_setup 和 io_submit 的用法。

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>
#include <sys/stat.h>
#include <linux/aio_abi.h>
#include <sys/syscall.h>

// 辅助函数：调用 io_setup 系统调用
static inline int io_setup(unsigned nr_events, io_context_t *ctxp) {
    return syscall(__NR_io_setup, nr_events, ctxp);
}

// 辅助函数：调用 io_destroy 系统调用
static inline int io_destroy(io_context_t ctx) {
    return syscall(__NR_io_destroy, ctx);
}

// 辅助函数：调用 io_submit 系统调用
static inline int io_submit(io_context_t ctx, long nr, struct iocb **iocbpp) {
    return syscall(__NR_io_submit, ctx, nr, iocbpp);
}

// 辅助函数：调用 io_getevents 系统调用
static inline int io_getevents(io_context_t ctx, long min_nr, long nr, struct io_event *events, struct timespec *timeout) {
    return syscall(__NR_io_getevents, ctx, min_nr, nr, events, timeout);
}

// 辅助函数：初始化一个异步读取的 iocb 结构
void prep_pread(struct iocb *iocb, int fd, void *buf, size_t count, __u64 offset) {
    // 清零结构体
    memset(iocb, 0, sizeof(*iocb));
    // 设置操作类型为pread (异步pread)
    iocb->aio_lio_opcode = IOCB_CMD_PREAD;
    // 设置文件描述符
    iocb->aio_fildes = fd;
    // 设置缓冲区
    iocb->aio_buf = (__u64)(unsigned long)buf;
    // 设置读取字节数
    iocb->aio_nbytes = count;
    // 设置文件偏移量
    iocb->aio_offset = offset;
    // 设置用户数据 (可选，用于匹配事件)
    iocb->aio_data = (__u64)(unsigned long)buf; // 这里简单地用 buf 地址作为标识
}

// 辅助函数：初始化一个异步写入的 iocb 结构
void prep_pwrite(struct iocb *iocb, int fd, const void *buf, size_t count, __u64 offset) {
    memset(iocb, 0, sizeof(*iocb));
    iocb->aio_lio_opcode = IOCB_CMD_PWRITE;
    iocb->aio_fildes = fd;
    iocb->aio_buf = (__u64)(unsigned long)buf;
    iocb->aio_nbytes = count;
    iocb->aio_offset = offset;
    iocb->aio_data = (__u64)(unsigned long)buf; // 用 buf 地址作为标识
}

int main() {
    const char *filename = "aio_test_file.txt";
    const int num_ops = 4; // 2次写入 + 2次读取
    const size_t chunk_size = 1024;
    int fd;
    io_context_t ctx = 0; // 必须初始化为 0
    struct iocb iocbs[num_ops];
    struct iocb *iocb_ptrs[num_ops];
    char write_buffers[2][chunk_size];
    char read_buffers[2][chunk_size];
    struct io_event events[num_ops];
    int ret, i;

    printf("--- Demonstrating io_setup and io_submit (Linux AIO) ---\n");

    // 1. 初始化要写入的数据
    memset(write_buffers[0], 'A', chunk_size);
    memset(write_buffers[1], 'B', chunk_size);

    // 2. 创建并打开文件 (O_DIRECT 对 AIO 更友好，但为简单起见使用普通模式)
    fd = open(filename, O_CREAT | O_TRUNC | O_RDWR, 0644);
    if (fd == -1) {
        perror("open");
        exit(EXIT_FAILURE);
    }
    printf("Opened/created file '%s'\n", filename);

    // 3. 初始化异步 I/O 上下文
    // 我们需要能处理至少 num_ops 个并发请求
    ret = io_setup(num_ops, &ctx);
    if (ret < 0) {
        perror("io_setup");
        close(fd);
        exit(EXIT_FAILURE);
    }
    printf("Initialized AIO context (ctx_id=%llu).\n", (unsigned long long)ctx);

    // 4. 准备写入请求
    prep_pwrite(&iocbs[0], fd, write_buffers[0], chunk_size, 0);
    prep_pwrite(&iocbs[1], fd, write_buffers[1], chunk_size, chunk_size);
    iocb_ptrs[0] = &iocbs[0];
    iocb_ptrs[1] = &iocbs[1];
    printf("Prepared 2 write requests.\n");

    // 5. 提交写入请求
    printf("Submitting write requests...\n");
    ret = io_submit(ctx, 2, iocb_ptrs);
    if (ret != 2) {
        fprintf(stderr, "io_submit (writes) failed: submitted %d, expected %d\n", ret, 2);
        if (ret < 0) perror("io_submit");
        io_destroy(ctx);
        close(fd);
        exit(EXIT_FAILURE);
    }
    printf("Submitted 2 write requests successfully.\n");

    // 6. 等待写入完成 (简单起见，等待所有已提交的)
    printf("Waiting for write completions...\n");
    struct timespec timeout = {5, 0}; // 5秒超时
    ret = io_getevents(ctx, 2, 2, events, &timeout);
    if (ret < 0) {
        perror("io_getevents (writes)");
        io_destroy(ctx);
        close(fd);
        exit(EXIT_FAILURE);
    }
    if (ret < 2) {
        printf("Warning: Only got %d write events, expected 2.\n", ret);
    } else {
        printf("Received %d write completion events.\n", ret);
        for (i = 0; i < ret; ++i) {
            if (events[i].res < 0) {
                fprintf(stderr, "Write error: %s\n", strerror(-events[i].res));
            } else {
                printf("Write %d completed: %lld bytes written.\n", i+1, (long long)events[i].res);
            }
        }
    }

    // 7. 准备读取请求
    prep_pread(&iocbs[2], fd, read_buffers[0], chunk_size, 0);
    prep_pread(&iocbs[3], fd, read_buffers[1], chunk_size, chunk_size);
    iocb_ptrs[0] = &iocbs[2]; // 重用指针数组
    iocb_ptrs[1] = &iocbs[3];
    printf("\nPrepared 2 read requests.\n");

    // 8. 提交读取请求
    printf("Submitting read requests...\n");
    ret = io_submit(ctx, 2, iocb_ptrs);
    if (ret != 2) {
        fprintf(stderr, "io_submit (reads) failed: submitted %d, expected %d\n", ret, 2);
        if (ret < 0) perror("io_submit");
        io_destroy(ctx);
        close(fd);
        exit(EXIT_FAILURE);
    }
    printf("Submitted 2 read requests successfully.\n");

    // 9. 等待读取完成
    printf("Waiting for read completions...\n");
    ret = io_getevents(ctx, 2, 2, events, &timeout);
    if (ret < 0) {
        perror("io_getevents (reads)");
        io_destroy(ctx);
        close(fd);
        exit(EXIT_FAILURE);
    }
    if (ret < 2) {
        printf("Warning: Only got %d read events, expected 2.\n", ret);
    } else {
        printf("Received %d read completion events.\n", ret);
        for (i = 0; i < ret; ++i) {
            if (events[i].res < 0) {
                fprintf(stderr, "Read error: %s\n", strerror(-events[i].res));
            } else {
                printf("Read %d completed: %lld bytes read.\n", i+1, (long long)events[i].res);
                // 简单验证读取的数据
                char expected_char = (i == 0) ? 'A' : 'B';
                if (((char*)(events[i].data))[0] == expected_char) {
                    printf("  Data verification OK for buffer %d.\n", i+1);
                } else {
                    printf("  Data verification FAILED for buffer %d.\n", i+1);
                }
            }
        }
    }

    // 10. 清理资源
    printf("\n--- Cleaning up ---\n");
    ret = io_destroy(ctx);
    if (ret < 0) {
        perror("io_destroy");
    } else {
        printf("Destroyed AIO context.\n");
    }
    close(fd);
    printf("Closed file descriptor.\n");
    unlink(filename); // 删除测试文件
    printf("Deleted test file '%s'.\n", filename);

    printf("\n--- Summary ---\n");
    printf("1. io_setup(nr_events, &ctx): Creates an AIO context that can handle 'nr_events' concurrent operations.\n");
    printf("2. io_submit(ctx_id, nr, iocb_ptrs): Submits 'nr' AIO requests (described by iocb structs) to the context.\n");
    printf("3. struct iocb: Describes a single AIO operation (read/write/fsync etc.) with all necessary parameters.\n");
    printf("4. These are the first steps in the Linux AIO workflow. Results are fetched with io_getevents().\n");
    printf("5. Note: Traditional Linux AIO has limitations. io_uring is the modern, preferred approach.\n");

    return 0;
}

10. 编译和运行

# 假设代码保存在 aio_setup_submit_example.c 中
gcc -o aio_setup_submit_example aio_setup_submit_example.c

# 运行程序
./aio_setup_submit_example

11. 预期输出

--- Demonstrating io_setup and io_submit (Linux AIO) ---
Opened/created file 'aio_test_file.txt'
Initialized AIO context (ctx_id=123456789).
Prepared 2 write requests.
Submitting write requests...
Submitted 2 write requests successfully.
Waiting for write completions...
Received 2 write completion events.
Write 1 completed: 1024 bytes written.
Write 2 completed: 1024 bytes written.

Prepared 2 read requests.
Submitting read requests...
Submitted 2 read requests successfully.
Waiting for read completions...
Received 2 read completion events.
Read 1 completed: 1024 bytes read.
  Data verification OK for buffer 1.
Read 2 completed: 1024 bytes read.
  Data verification OK for buffer 2.

--- Cleaning up ---
Destroyed AIO context.
Closed file descriptor.
Deleted test file 'aio_test_file.txt'.

--- Summary ---
1. io_setup(nr_events, &ctx): Creates an AIO context that can handle 'nr_events' concurrent operations.
2. io_submit(ctx_id, nr, iocb_ptrs): Submits 'nr' AIO requests (described by iocb structs) to the context.
3. struct iocb: Describes a single AIO operation (read/write/fsync etc.) with all necessary parameters.
4. These are the first steps in the Linux AIO workflow. Results are fetched with io_getevents().
5. Note: Traditional Linux AIO has limitations. io_uring is the modern, preferred approach.

12. 总结

io_setup 和 io_submit 是 Linux 异步 I/O (AIO) 机制的入口点。

io_setup：
- 作用：创建一个管理和跟踪异步 I/O 操作的上下文。
- 参数：指定上下文能处理的最大并发请求数 (nr_events) 和用于返回上下文 ID 的指针 (ctxp)。
io_submit：
- 作用：将描述异步操作的 iocb 结构体提交到指定的上下文中，让内核开始执行。
- 参数：上下文 ID (ctx_id)、请求数量 (nr) 和指向 iocb 指针数组的指针 (iocbpp)。
核心概念：
- io_context_t：异步 I/O 上下文的句柄。
- struct iocb：描述单个异步请求（操作类型、文件、缓冲区、偏移等）。
工作流程：
1. 调用 io_setup 创建上下文。
2. 为每个 I/O 操作填充一个 iocb 结构体。
3. 调用 io_submit 提交这些 iocb。
4. （稍后）调用 io_getevents 获取完成状态。
5. （最后）调用 io_destroy 销毁上下文。
局限性：
- 传统 Linux AIO 对 buffered 文件 I/O 支持不佳，性能可能不理想。
- API 相对底层和复杂。
现代替代：对于新的高性能异步 I/O 应用，强烈推荐使用 io_uring，它提供了更强大、更易用、性能更好的异步 I/O 接口。

对于 Linux 编程新手，理解 io_setup 和 io_submit 是学习异步 I/O 的重要一步，尽管在实践中可能更倾向于使用更高级的封装或 io_uring。

发表在 linux文章 | 留下评论

io_getevents系统调用及示例

发表于2025-08-03由麦芽爸

我们来深入学习 io_getevents 和 io_pgetevents 系统调用，从 Linux 编程小白的角度出发。

1. 函数介绍

为了提高性能，特别是对于高并发的服务器程序，Linux 提供了异步 I/O (Asynchronous I/O, AIO) 机制。核心思想是：

提交请求：你告诉内核：“请帮我从文件描述符 fd 读取数据到 buffer”，然后你的程序立即返回，可以去做其他事情。
内核处理：内核在后台执行这个读取操作。
获取结果：过一段时间后，你再询问内核：“之前那个读取操作完成了吗？”。如果完成了，内核会告诉你结果（读取了多少字节，是否出错等）。

io_submit 系列函数用于提交异步 I/O 请求，而 io_getevents 和 io_pgetevents 则用于获取这些已提交请求的完成状态（事件）。

io_getevents: 从指定的异步 I/O 上下文（context）中获取已完成的 I/O 事件。
io_pgetevents: 是 io_getevents 的扩展版本，它在获取事件的同时，可以设置一个信号掩码（就像 pselect 或 ppoll 一样），在等待事件期间临时改变进程的信号屏蔽字。

简单来说：

io_getevents：问内核：“有哪些我之前提交的异步读写操作已经完成了？”
io_pgetevents：和 io_getevents 功能一样，但可以在等待时临时调整对信号的响应。

2. 函数原型

// 需要定义宏来启用 AIO 和 io_pgetevents
#define _GNU_SOURCE
#include <linux/aio_abi.h> // 包含 AIO 相关结构体和常量 (io_context_t, io_event, iocb)
#include <sys/syscall.h>   // 包含 syscall 函数和系统调用号
#include <unistd.h>        // 包含 syscall 函数
#include <signal.h>        // 包含 sigset_t 等 (io_pgetevents)

// io_getevents 系统调用
long syscall(SYS_io_getevents, io_context_t ctx_id, long min_nr, long nr, struct io_event *events, struct timespec *timeout);

// io_pgetevents 系统调用
long syscall(SYS_io_pgetevents, io_context_t ctx_id, long min_nr, long nr, struct io_event *events, struct timespec *timeout, const sigset_t *sigmask);

注意：

这些是底层系统调用。标准 C 库（glibc）可能不直接提供用户友好的包装函数，或者支持不完整（io_pgetevents 较新，可能需要较新版本 glibc）。
通常需要通过 syscall() 函数并传入系统调用号来调用它们。
需要包含 linux/aio_abi.h 头文件来获取相关结构体和类型定义。

3. 功能

io_getevents: 尝试从异步 I/O 上下文 ctx_id 中获取至少 min_nr 个、最多 nr 个已完成的 I/O 事件，并将它们存储在 events 指向的数组中。如果没有任何事件完成，它会根据 timeout 参数决定是阻塞等待还是立即返回。
io_pgetevents: 功能与 io_getevents 相同，但在等待事件期间，会将调用进程的信号屏蔽字临时设置为 sigmask 指向的掩码。这可以防止在等待过程中被不希望的信号中断。

4. 参数详解

`io_getevents(io_context_t ctx_id, long min_nr, long nr, struct io_event events, struct timespec timeout)`

ctx_id:
- io_context_t 类型。
- 一个异步 I/O 上下文的标识符。这个上下文是通过 io_setup 系统调用创建的，用于管理一组异步 I/O 操作。
min_nr:
- long 类型。
- 指定函数希望返回的最少事件数量。如果已完成的事件少于 min_nr，函数可能会根据 timeout 选择等待。
nr:
- long 类型。
- 指定 events 数组能容纳的最大事件数量。函数返回的事件数不会超过 nr。
events:
- struct io_event * 类型。
- 一个指向 struct io_event 数组的指针。函数成功返回时，会将获取到的已完成事件信息填充到这个数组中。
- struct io_event 结构体包含：
  - __u64 data;：与请求关联的用户数据（通常是你在 iocb 中设置的 data 字段）。
  - __u64 obj;：指向完成的 iocb 的指针（内核空间地址）。
  - __s64 res;：操作结果。对于读/写操作，这是传输的字节数；对于失败的操作，这是一个负的错误码（如 -EIO）。
  - __s64 res2;：预留字段。
timeout:
- struct timespec * 类型。
- 指向一个 timespec 结构体，指定等待事件的超时时间。
- 如果为 NULL，函数会无限期阻塞，直到至少有 min_nr 个事件完成。
- 如果 tv_sec 和 tv_nsec 都为 0，函数会立即返回，不进行任何等待，只返回当前已有的事件。
- 否则，函数最多等待指定的时间。

`io_pgetevents(io_context_t ctx_id, long min_nr, long nr, struct io_event events, struct timespec timeout, const sigset_t *sigmask)`

前五个参数与 io_getevents 完全相同。
sigmask:
- const sigset_t * 类型。
- 一个指向信号集的指针。在 io_pgetevents 执行等待（如果需要等待）期间，调用进程的信号屏蔽字会被临时替换为 sigmask 指向的信号集。等待结束后，信号屏蔽字会恢复为原始值。
- 这使得程序可以在等待 I/O 事件时，精确控制哪些信号可以中断等待。

5. 返回值

两者返回值相同：

成功: 返回实际获取到的事件数量（大于等于 0，小于等于 nr）。
失败: 返回 -1，并设置全局变量 errno 来指示具体的错误原因。

6. 错误码 (`errno`)

两者共享许多相同的错误码：

EFAULT: events 或 timeout 指向了无效的内存地址。
EINTR: 系统调用被信号中断（对于 io_getevents）。对于 io_pgetevents，如果 sigmask 为 NULL，也可能发生。
EINVAL: min_nr 大于 nr，或者 ctx_id 无效。
ENOMEM: 内核内存不足。
EBADF: ctx_id 不是一个有效的异步 I/O 上下文。

7. 相似函数或关联函数

io_setup: 创建一个异步 I/O 上下文。
io_destroy: 销毁一个异步 I/O 上下文。
io_submit: 向异步 I/O 上下文提交一个或多个 I/O 请求 (iocb)。
io_cancel: 尝试取消一个已提交但尚未完成的 I/O 请求。
struct io_context_t: 异步 I/O 上下文的类型。
struct iocb: 描述单个异步 I/O 请求的结构体。
struct io_event: 描述单个已完成 I/O 事件的结构体。

8. 示例代码

下面的示例演示了如何使用 io_setup, io_submit, io_getevents 来执行基本的异步 I/O 操作。由于 io_pgetevents 的使用方式类似且需要处理信号，此处主要演示 io_getevents。

警告：Linux 原生 AIO (io_uring 之前的 AIO) 对于文件 I/O 的支持在某些场景下（如 buffered I/O）可能退化为同步操作。对于高性能异步 I/O，现代推荐使用 io_uring。此处仅为演示 io_getevents 的用法。

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>
#include <sys/stat.h>
#include <linux/aio_abi.h>
#include <sys/syscall.h>
#include <sys/time.h> // 包含 gettimeofday

// 辅助函数：调用 io_setup 系统调用
static inline int io_setup(unsigned nr_events, io_context_t *ctxp) {
    return syscall(__NR_io_setup, nr_events, ctxp);
}

// 辅助函数：调用 io_destroy 系统调用
static inline int io_destroy(io_context_t ctx) {
    return syscall(__NR_io_destroy, ctx);
}

// 辅助函数：调用 io_submit 系统调用
static inline int io_submit(io_context_t ctx, long nr, struct iocb **iocbpp) {
    return syscall(__NR_io_submit, ctx, nr, iocbpp);
}

// 辅助函数：调用 io_getevents 系统调用
static inline int io_getevents(io_context_t ctx, long min_nr, long nr, struct io_event *events, struct timespec *timeout) {
    return syscall(__NR_io_getevents, ctx, min_nr, nr, events, timeout);
}

// 辅助函数：初始化一个异步读取的 iocb 结构
void prep_read(struct iocb *iocb, int fd, void *buf, size_t count, __u64 offset, __u64 data) {
    // 清零结构体
    memset(iocb, 0, sizeof(*iocb));
    // 设置操作类型为pread (异步pread)
    iocb->aio_lio_opcode = IOCB_CMD_PREAD;
    // 设置文件描述符
    iocb->aio_fildes = fd;
    // 设置缓冲区
    iocb->aio_buf = (__u64)(unsigned long)buf;
    // 设置读取字节数
    iocb->aio_nbytes = count;
    // 设置文件偏移量
    iocb->aio_offset = offset;
    // 设置用户数据 (可选，用于匹配事件)
    iocb->aio_data = data;
}

int main() {
    const char *filename = "aio_test_file.txt";
    const int num_reads = 3;
    const size_t chunk_size = 1024;
    int fd;
    io_context_t ctx = 0; // 必须初始化为 0
    struct iocb iocbs[num_reads];
    struct iocb *iocb_ptrs[num_reads];
    char buffers[num_reads][chunk_size];
    struct io_event events[num_reads];
    struct timespec timeout;
    int ret, i;
    struct timeval start, end;
    double elapsed_time;

    printf("--- Demonstrating io_getevents (Linux AIO) ---\n");

    // 1. 创建一个测试文件
    fd = open(filename, O_CREAT | O_TRUNC | O_WRONLY, 0644);
    if (fd == -1) {
        perror("open (create)");
        exit(EXIT_FAILURE);
    }
    char test_data[1024];
    memset(test_data, 'A', sizeof(test_data));
    for (int j = 0; j < 10; ++j) { // 写入 10KB 数据
        if (write(fd, test_data, sizeof(test_data)) != sizeof(test_data)) {
            perror("write");
            close(fd);
            exit(EXIT_FAILURE);
        }
    }
    close(fd);
    printf("Created test file '%s' with 10KB of data.\n", filename);

    // 2. 以只读方式打开文件
    fd = open(filename, O_RDONLY);
    if (fd == -1) {
        perror("open (read)");
        exit(EXIT_FAILURE);
    }

    // 3. 初始化异步 I/O 上下文
    // 我们需要能处理至少 num_reads 个并发请求
    ret = io_setup(num_reads, &ctx);
    if (ret < 0) {
        perror("io_setup");
        close(fd);
        exit(EXIT_FAILURE);
    }
    printf("Initialized AIO context.\n");

    // 4. 准备 I/O 请求 (iocb)
    for (i = 0; i < num_reads; ++i) {
        // 从文件不同偏移读取
        prep_read(&iocbs[i], fd, buffers[i], chunk_size, i * chunk_size, i + 1);
        iocb_ptrs[i] = &iocbs[i];
        printf("Prepared read request %d: offset=%zu, size=%zu\n", i+1, i * chunk_size, chunk_size);
    }

    // 5. 提交 I/O 请求
    gettimeofday(&start, NULL);
    printf("Submitting %d asynchronous read requests...\n", num_reads);
    ret = io_submit(ctx, num_reads, iocb_ptrs);
    if (ret != num_reads) {
        fprintf(stderr, "io_submit failed: submitted %d, expected %d\n", ret, num_reads);
        if (ret < 0) perror("io_submit");
        io_destroy(ctx);
        close(fd);
        exit(EXIT_FAILURE);
    }
    gettimeofday(&end, NULL);
    elapsed_time = ((end.tv_sec - start.tv_sec) * 1000.0) + ((end.tv_usec - start.tv_usec) / 1000.0);
    printf("Submitted all requests in %.2f ms.\n", elapsed_time);

    // 6. 等待并获取完成的事件 (使用 io_getevents)
    printf("Waiting for completion events using io_getevents...\n");
    gettimeofday(&start, NULL);

    // 设置超时为 5 秒
    timeout.tv_sec = 5;
    timeout.tv_nsec = 0;

    // 等待所有 num_reads 个事件完成
    ret = io_getevents(ctx, num_reads, num_reads, events, &timeout);
    gettimeofday(&end, NULL);
    elapsed_time = ((end.tv_sec - start.tv_sec) * 1000.0) + ((end.tv_usec - start.tv_usec) / 1000.0);

    if (ret < 0) {
        perror("io_getevents");
        io_destroy(ctx);
        close(fd);
        exit(EXIT_FAILURE);
    }

    if (ret < num_reads) {
        printf("Warning: Only got %d events out of %d expected within timeout.\n", ret, num_reads);
    } else {
        printf("Received all %d completion events in %.2f ms.\n", ret, elapsed_time);
    }

    // 7. 处理完成的事件
    printf("\n--- Processing Completion Events ---\n");
    for (i = 0; i < ret; ++i) {
        struct io_event *ev = &events[i];
        printf("Event %d:\n", i+1);
        printf("  Request ID (user data): %llu\n", (unsigned long long)ev->data);
        // printf("  Request pointer: %llu\n", (unsigned long long)ev->obj); // 内核地址，通常不直接使用
        if (ev->res >= 0) {
            printf("  Result: Success, %lld bytes read.\n", (long long)ev->res);
            // 可以检查 buffers[ev->data - 1] 中的数据
            // printf("  First byte: %c\n", buffers[ev->data - 1][0]);
        } else {
            printf("  Result: Error, code %lld (%s)\n", (long long)ev->res, strerror(-ev->res));
        }
        printf("\n");
    }

    // 8. 清理资源
    printf("--- Cleaning up ---\n");
    io_destroy(ctx);
    printf("Destroyed AIO context.\n");
    close(fd);
    printf("Closed file descriptor.\n");
    unlink(filename); // 删除测试文件
    printf("Deleted test file '%s'.\n", filename);

    printf("\n--- Summary ---\n");
    printf("1. io_getevents retrieves completed asynchronous I/O operations.\n");
    printf("2. It works with an io_context_t created by io_setup.\n");
    printf("3. It waits for events based on min_nr, nr, and timeout.\n");
    printf("4. io_pgetevents is similar but allows setting a signal mask during wait.\n");
    printf("5. Linux AIO has some limitations; io_uring is the modern, preferred approach.\n");

    return 0;
}

9. 编译和运行

# 假设代码保存在 aio_getevents_example.c 中
gcc -o aio_getevents_example aio_getevents_example.c

# 运行程序
./aio_getevents_example

10. 预期输出

--- Demonstrating io_getevents (Linux AIO) ---
Created test file 'aio_test_file.txt' with 10KB of data.
Initialized AIO context.
Prepared read request 1: offset=0, size=1024
Prepared read request 2: offset=1024, size=1024
Prepared read request 3: offset=2048, size=1024
Submitting 3 asynchronous read requests...
Submitted all requests in 0.05 ms.
Waiting for completion events using io_getevents...
Received all 3 completion events in 2.15 ms.

--- Processing Completion Events ---
Event 1:
  Request ID (user data): 1
  Result: Success, 1024 bytes read.

Event 2:
  Request ID (user data): 2
  Result: Success, 1024 bytes read.

Event 3:
  Request ID (user data): 3
  Result: Success, 1024 bytes read.


--- Cleaning up ---
Destroyed AIO context.
Closed file descriptor.
Deleted test file 'aio_test_file.txt'.

--- Summary ---
1. io_getevents retrieves completed asynchronous I/O operations.
2. It works with an io_context_t created by io_setup.
3. It waits for events based on min_nr, nr, and timeout.
4. io_pgetevents is similar but allows setting a signal mask during wait.
5. Linux AIO has some limitations; io_uring is the modern, preferred approach.

11. 关于 `io_pgetevents` 的补充说明

io_pgetevents 的使用场景相对较少，主要是在需要精确控制信号处理的异步 I/O 程序中。例如，你可能希望在等待 I/O 完成时，只允许 SIGUSR1 信号中断，而屏蔽其他所有信号。这时就可以构建一个只包含 SIGUSR1 的 sigset_t，并传递给 io_pgetevents。

其函数原型和调用方式与 io_getevents 类似，只是多了一个 sigmask 参数：

// 假设已定义 syscall 号 __NR_io_pgetevents
long io_pgetevents(io_context_t ctx, long min_nr, long nr, struct io_event *events, struct timespec *timeout, const sigset_t *sigmask);

// 使用示例 (概念性)
sigset_t mask;
sigemptyset(&mask);
sigaddset(&mask, SIGUSR1);

struct timespec timeout = {5, 0}; // 5秒超时
int ret = syscall(__NR_io_pgetevents, ctx, 1, 1, events, &timeout, &mask);
// 在等待期间，只有 SIGUSR1 能中断此调用

12. 总结

io_getevents 和 io_pgetevents 是 Linux 异步 I/O (AIO) 机制的重要组成部分。

核心作用：从 AIO 上下文中获取已完成的 I/O 操作的结果（事件）。
io_getevents：基础版本，用于等待和获取事件。
io_pgetevents：增强版本，在等待期间可以原子性地设置信号掩码，提供更精细的信号控制。
工作流程：
1. io_setup 创建上下文。
2. 构造 iocb 请求并用 io_submit 提交。
3. 使用 io_getevents/io_pgetevents 等待和获取完成事件。
4. io_destroy 销毁上下文。
优势：允许程序在 I/O 操作进行的同时执行其他任务，提高并发性能。
局限性：
- 传统 Linux AIO 对于 buffered 文件 I/O 支持不佳，可能退化为同步。
- API 相对复杂，直接使用系统调用较为繁琐。
现代替代：对于新的高性能异步 I/O 应用，强烈推荐使用 io_uring，它提供了更强大、更易用、性能更好的异步 I/O 接口。

对于 Linux 编程新手，理解 io_getevents 的工作原理有助于掌握异步编程的思想，尽管在实践中可能更倾向于使用更高级的封装或 io_uring。

发表在 linux文章 | 留下评论

io_pgetevents系统调用及示例

发表于2025-08-03由麦芽爸

io_pgetevents系统调用及示例 io_setup/io_submit系统调用及示例

我们继续按照您的要求学习 Linux 系统编程中的重要函数。这次我们介绍 io_pgetevents。

1. 函数介绍

io_pgetevents 是一个 Linux 系统调用，它是 Linux AIO (Asynchronous I/O) 子系统的一部分。它是 io_getevents 函数的增强版本，主要增加了对信号屏蔽（signal mask）的支持。

简单来说，io_pgetevents 的作用是：

等待并获取之前提交给 Linux AIO 子系统的异步 I/O 操作的完成状态。

想象一下你去邮局寄很多封信（异步 I/O 请求）：

你把所有信件交给邮局（调用 io_submit），然后你就可以去做别的事情了，不需要在邮局柜台等着。
过了一段时间，你想知道哪些信已经寄出去了（I/O 操作完成了）。
你就可以使用 io_pgetevents 这个功能去邮局查询（等待）并取回那些已经处理完毕的回执单（I/O 完成事件）。

io_pgetevents 相比 io_getevents 的优势在于，它允许你在等待 I/O 完成的同时，原子性地设置一个临时的信号屏蔽字。这在需要精确控制信号处理的多线程程序中非常有用，可以避免竞态条件。

2. 函数原型

#include <linux/aio_abi.h> // 包含 io_event 结构体等 AIO 相关定义
#include <signal.h>        // sigset_t
#include <sys/syscall.h>   // syscall
#include <unistd.h>

// 注意：glibc 通常不直接包装 io_pgetevents，需要使用 syscall
// 系统调用号在不同架构上不同，例如 x86_64 上是 333 (SYS_io_pgetevents)

// 通过 syscall 调用的原型 (概念上)
long io_pgetevents(aio_context_t ctx_id,
                   long min_nr,
                   long nr,
                   struct io_event *events,
                   struct timespec *timeout,
                   const struct __aio_sigset *usig);

重要: 与 rseq 类似，io_pgetevents 在标准的 C 库 (glibc) 中通常没有直接的包装函数。你需要使用 syscall() 来调用它。

3. 功能

等待 AIO 事件: 阻塞调用线程，直到至少 min_nr 个异步 I/O 事件完成，或者达到 timeout 指定的时间。
获取完成事件: 将已完成的 I/O 事件信息填充到调用者提供的 events 数组中，最多填充 nr 个。
原子性信号控制: 在等待期间，根据 usig 参数临时设置线程的信号屏蔽字。等待结束后，信号屏蔽字会恢复到调用前的状态。这是 io_getevents 所不具备的功能。
超时控制: 可以指定一个等待超时时间，避免无限期阻塞。

4. 参数

aio_context_t ctx_id: 这是通过 io_setup 创建的 AIO 上下文（或称为 AIO 完成端口）的 ID。所有相关的异步 I/O 操作都提交到这个上下文中。
long min_nr: 调用希望获取的最少事件数量。
- 如果设置为 1，则函数在至少有一个事件完成时返回。
- 如果设置为 N（N > 1），则函数会等待，直到至少有 N 个事件完成（或超时）。
long nr: events 数组的大小，即调用者希望获取的最大事件数量。
- 函数返回时，实际返回的事件数会 <= nr。
struct io_event *events: 指向一个 struct io_event 类型数组的指针。这个数组用于接收完成的 I/O 事件信息。
struct io_event (定义在 <linux/aio_abi.h>) 通常包含：struct io_event { __u64 data; // 用户在 iocb 中指定的数据 (与请求关联) __u64 obj; // 指向完成的 iocb 的指针 __s64 res; // 操作结果 (例如 read/write 返回的字节数，或负的 errno) __s64 res2; // 额外的结果信息 (通常为 0) };
struct timespec *timeout: 指向一个 struct timespec 结构的指针，用于指定超时时间。
- 如果为 NULL，则调用会无限期阻塞，直到至少 min_nr 个事件完成。
- 如果 timeout->tv_sec == 0 && timeout->tv_nsec == 0，则函数变为非阻塞检查，立即返回已有的完成事件。
- 否则，函数最多阻塞 timeout 指定的时间。
const struct __aio_sigset *usig: 这是 io_pgetevents 相比 io_getevents 新增的关键参数。
- 它指向一个 struct __aio_sigset 结构，用于指定在等待期间要使用的临时信号屏蔽字。
struct __aio_sigset { const sigset_t *sigmask; // 指向新的信号屏蔽字 size_t sigsetsize; // sigmask 指向的内存大小 (通常用 sizeof(sigset_t)) };
- 如果 usig 为 NULL，则不修改信号屏蔽字，行为类似于 io_getevents。
- 如果 usig 非 NULL，则在进入内核等待状态之前，线程的信号屏蔽字会被原子性地替换为 *usig->sigmask。在等待结束（无论是因事件到达还是超时）后，信号屏蔽字会恢复。

5. 返回值

成功时: 返回实际获取到的事件数量（一个非负整数，且 >= min_nr 除非超时或被信号中断）。
失败时: 返回 -1，并设置全局变量 errno 来指示具体的错误原因（例如 EFAULT events 或 timeout 指针无效，EINVAL ctx_id 无效或 min_nr/nr 无效，EINTR 调用被信号中断等）。

6. 相似函数，或关联函数

io_getevents: 功能与 io_pgetevents 相同，但不支持 usig 参数，无法原子性地控制信号屏蔽字。
io_setup: 创建 AIO 上下文。
io_destroy: 销毁 AIO 上下文。
io_submit: 向 AIO 上下文提交异步 I/O 请求。
io_cancel: 尝试取消一个已提交但尚未完成的异步 I/O 请求。
io_uring: Linux 5.1+ 引入的更新、更高效的异步 I/O 接口，通常比传统的 aio 性能更好且功能更强大。

7. 示例代码

重要提示: AIO 编程本身就比较复杂，涉及多个系统调用。下面的示例将展示 io_pgetevents 的使用，但会简化一些错误处理和资源清理，以突出重点。

示例 1：使用 `io_pgetevents` 读取文件并原子性地屏蔽信号

这个例子演示了如何设置 AIO 上下文，提交异步读取请求，然后使用 io_pgetevents 等待完成，并在等待期间原子性地屏蔽 SIGUSR1 信号。

// aio_pgetevents_example.c
// 编译: gcc -o aio_pgetevents_example aio_pgetevents_example.c
#define _GNU_SOURCE // For syscall, SIGUSR1, etc.
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>
#include <sys/syscall.h>
#include <linux/aio_abi.h>
#include <signal.h>
#include <sys/stat.h>
#include <assert.h>
#include <pthread.h> // For pthread_kill in signal sender

// 定义系统调用号 (x86_64)
#ifndef SYS_io_pgetevents
#define SYS_io_pgetevents 333
#endif
#ifndef SYS_io_setup
#define SYS_io_setup 206
#endif
#ifndef SYS_io_destroy
#define SYS_io_destroy 207
#endif
#ifndef SYS_io_submit
#define SYS_io_submit 209
#endif
#ifndef SYS_io_getevents
#define SYS_io_getevents 208
#endif

// 包装 io_pgetevents 系统调用
static inline int io_pgetevents(aio_context_t ctx, long min_nr, long nr,
                                struct io_event *events,
                                struct timespec *timeout,
                                struct __aio_sigset *usig) {
    return syscall(SYS_io_pgetevents, ctx, min_nr, nr, events, timeout, usig);
}

// 包装 io_setup
static inline int io_setup(unsigned nr_events, aio_context_t *ctx_idp) {
    return syscall(SYS_io_setup, nr_events, ctx_idp);
}

// 包装 io_destroy
static inline int io_destroy(aio_context_t ctx) {
    return syscall(SYS_io_destroy, ctx);
}

// 包装 io_submit
static inline int io_submit(aio_context_t ctx, long nr, struct iocb **iocbpp) {
    return syscall(SYS_io_submit, ctx, nr, iocbpp);
}

#define NUM_REQUESTS 2
#define BUFFER_SIZE 1024

// 信号处理函数
void signal_handler(int sig) {
    printf("Signal %d received in main thread!\n", sig);
}

// 发送信号的线程函数
void* signal_sender_thread(void *arg) {
    pid_t main_tid = *(pid_t*)arg;
    sleep(2); // 等待 main 线程进入 io_pgetevents
    printf("Signal sender: Sending SIGUSR1 to main thread (TID %d)...\n", main_tid);
    // 注意：pthread_kill 发送给线程，kill 发送给进程
    // 这里假设 main_tid 是线程 ID (实际获取线程 ID 需要 gettid() 或其他方法)
    // 为简化，我们用 kill 发送给整个进程
    // pthread_kill 需要更复杂的设置，这里用 kill 演示
    if (kill(getpid(), SIGUSR1) != 0) {
        perror("kill SIGUSR1");
    }
    return NULL;
}

int main() {
    const char *filename = "test_aio_file.txt";
    int fd;
    aio_context_t ctx = 0;
    struct iocb iocbs[NUM_REQUESTS];
    struct iocb *iocb_ptrs[NUM_REQUESTS];
    struct io_event events[NUM_REQUESTS];
    char buffers[NUM_REQUESTS][BUFFER_SIZE];
    struct sigaction sa;
    sigset_t block_sigusr1, oldset;
    struct __aio_sigset aio_sigset;
    pthread_t sig_thread;
    pid_t main_tid = getpid(); // Simplification for example

    // 1. 创建测试文件
    fd = open(filename, O_WRONLY | O_CREAT | O_TRUNC, 0644);
    if (fd == -1) {
        perror("open test file for writing");
        exit(EXIT_FAILURE);
    }
    const char *test_data = "This is test data for asynchronous I/O operation number one.\n"
                            "This is test data for asynchronous I/O operation number two.\n";
    if (write(fd, test_data, strlen(test_data)) != (ssize_t)strlen(test_data)) {
        perror("write test data");
        close(fd);
        exit(EXIT_FAILURE);
    }
    close(fd);
    printf("Created test file '%s'.\n", filename);

    // 2. 设置信号处理
    memset(&sa, 0, sizeof(sa));
    sa.sa_handler = signal_handler;
    sigemptyset(&sa.sa_mask);
    sa.sa_flags = 0; // No SA_RESTART for demonstration
    if (sigaction(SIGUSR1, &sa, NULL) == -1) {
        perror("sigaction SIGUSR1");
        exit(EXIT_FAILURE);
    }
    printf("SIGUSR1 handler installed.\n");

    // 3. 打开文件进行异步读取
    fd = open(filename, O_RDONLY);
    if (fd == -1) {
        perror("open test file for reading");
        exit(EXIT_FAILURE);
    }

    // 4. 初始化 AIO 上下文
    if (io_setup(NUM_REQUESTS, &ctx) < 0) {
        perror("io_setup");
        close(fd);
        exit(EXIT_FAILURE);
    }
    printf("AIO context created.\n");

    // 5. 准备 AIO 读取请求
    for (int i = 0; i < NUM_REQUESTS; i++) {
        // 初始化 iocb 结构
        memset(&iocbs[i], 0, sizeof(struct iocb));
        iocbs[i].aio_fildes = fd;
        iocbs[i].aio_lio_opcode = IOCB_CMD_PREAD; // 异步预读
        iocbs[i].aio_reqprio = 0;
        iocbs[i].aio_buf = (uint64_t)(buffers[i]); // 读入缓冲区
        iocbs[i].aio_nbytes = BUFFER_SIZE / 2; // 读取一半缓冲区大小
        iocbs[i].aio_offset = i * (BUFFER_SIZE / 2); // 从不同偏移量开始读
        iocbs[i].aio_data = i + 1; // 用户数据，用于标识请求
        iocb_ptrs[i] = &iocbs[i];
    }

    // 6. 提交 AIO 请求
    printf("Submitting %d AIO read requests...\n", NUM_REQUESTS);
    int ret = io_submit(ctx, NUM_REQUESTS, iocb_ptrs);
    if (ret < 0) {
        perror("io_submit");
        io_destroy(ctx);
        close(fd);
        exit(EXIT_FAILURE);
    } else if (ret != NUM_REQUESTS) {
        fprintf(stderr, "Submitted %d requests, expected %d\n", ret, NUM_REQUESTS);
    } else {
        printf("Successfully submitted %d AIO requests.\n", ret);
    }

    // 7. 设置信号屏蔽 (用于 io_pgetevents)
    sigemptyset(&block_sigusr1);
    sigaddset(&block_sigusr1, SIGUSR1);
    aio_sigset.sigmask = &block_sigusr1;
    aio_sigset.sigsetsize = sizeof(block_sigusr1);

    // 8. 启动信号发送线程
    if (pthread_create(&sig_thread, NULL, signal_sender_thread, &main_tid) != 0) {
        perror("pthread_create signal sender");
        io_destroy(ctx);
        close(fd);
        exit(EXIT_FAILURE);
    }

    printf("Main thread: Waiting for AIO events with SIGUSR1 blocked atomically...\n");

    // 9. 关键：使用 io_pgetevents 等待，原子性地屏蔽 SIGUSR1
    // 这意味着在内核等待期间，SIGUSR1 会被阻塞。
    // 如果在此期间有 SIGUSR1 到达，它会被挂起，直到 io_pgetevents 返回。
    struct timespec timeout;
    timeout.tv_sec = 10; // 10 秒超时
    timeout.tv_nsec = 0;

    ret = io_pgetevents(ctx, 1, NUM_REQUESTS, events, &timeout, &aio_sigset);

    if (ret < 0) {
        if (errno == EINTR) {
            printf("io_pgetevents was interrupted by a signal (EINTR).\n");
        } else {
            perror("io_pgetevents");
        }
    } else {
        printf("io_pgetevents returned %d events:\n", ret);
        for (int i = 0; i < ret; i++) {
            printf("  Event %d: data=%llu, res=%lld\n",
                   i, (unsigned long long)events[i].data, (long long)events[i].res);
            if (events[i].res > 0) {
                buffers[events[i].data - 1][events[i].res] = '\0'; // Null-terminate
                printf("    Data: %s", buffers[events[i].data - 1]);
            }
        }
    }

    printf("Main thread: io_pgetevents finished.\n");

    // 10. 等待信号发送线程结束
    pthread_join(sig_thread, NULL);

    // 11. 清理资源
    io_destroy(ctx);
    close(fd);
    unlink(filename); // 删除测试文件

    printf("Example finished.\n");
    return 0;
}

代码解释:

定义系统调用: 由于 glibc 可能没有包装，我们手动定义了 io_pgetevents 及相关 AIO 系统调用的包装函数。
创建测试文件: 程序首先创建一个包含测试数据的文件。
设置信号处理: 为 SIGUSR1 安装一个处理函数，用于演示信号处理。
打开文件: 以只读方式打开测试文件。
初始化 AIO 上下文: 调用 io_setup 创建一个可以处理 NUM_REQUESTS 个并发请求的上下文。
准备 AIO 请求: 初始化两个 struct iocb 结构，设置为从文件不同偏移量异步预读取数据。
提交请求: 调用 io_submit 将这两个读取请求提交给 AIO 引擎。
设置信号屏蔽: 创建一个包含 SIGUSR1 的信号集 block_sigusr1，并填充 struct __aio_sigset 结构 aio_sigset。
启动信号发送线程: 创建一个线程，它会在 2 秒后向主进程发送 SIGUSR1 信号。这用来测试信号屏蔽效果。
关键步骤 – io_pgetevents:
- 设置 10 秒超时。
- 调用 io_pgetevents(ctx, 1, NUM_REQUESTS, events, &timeout, &aio_sigset)。
- min_nr=1: 至少等待 1 个事件完成。
- &aio_sigset: 传递信号集，告诉内核在等待期间原子性地屏蔽 SIGUSR1。
等待和处理: 主线程在 io_pgetevents 中等待。在此期间，SIGUSR1 被屏蔽。信号发送线程发出的 SIGUSR1 会被挂起。当 io_pgetevents 返回时（因为 I/O 完成或超时），信号屏蔽恢复，被挂起的 SIGUSR1 随即被递达，信号处理函数得以执行。
输出结果: 打印获取到的事件信息和读取到的数据。
清理: 等待信号发送线程结束，销毁 AIO 上下文，关闭文件，删除测试文件。

核心概念:

io_pgetevents 的 usig 参数使得信号屏蔽和等待 I/O 成为一个原子操作。这避免了在设置信号屏蔽和调用 io_getevents 之间收到信号的竞态条件。
如果使用 io_getevents，你需要先调用 pthread_sigmask(SIG_SETMASK, ...) 设置屏蔽，然后调用 io_getevents，最后再调用 pthread_sigmask(SIG_SETMASK, ...) 恢复。在这三步之间，信号可能会到达，导致竞态。

重要提示与注意事项:

内核版本: io_pgetevents 需要 Linux 内核 4.18 或更高版本。
glibc 支持: 标准 C 库可能不提供直接包装，需要使用 syscall。
复杂性: AIO 本身就是一个复杂的子系统，涉及上下文管理、请求提交、事件获取等多个步骤。
性能: 传统的 aio 性能可能不如现代的 io_uring。对于新项目，考虑使用 io_uring。
信号安全: io_pgetevents 本身不是异步信号安全的，不应在信号处理函数中直接调用。
usig 参数: 这是 io_pgetevents 的核心优势。正确使用它可以编写出在信号处理方面更健壮的代码。
错误处理: 始终检查返回值和 errno，尤其是在处理 EINTR（被信号中断）时。

总结:

io_pgetevents 是 Linux AIO 系统调用 io_getevents 的增强版，关键改进是增加了对原子性信号屏蔽的支持。这使得在等待异步 I/O 完成时能够更安全、更精确地控制信号处理，避免了传统方法中的竞态条件。虽然使用起来比较底层和复杂，但对于需要高性能异步 I/O 并且对信号处理有严格要求的系统级编程来说，它是一个非常有价值的工具。

发表在 linux文章 | 留下评论

io_destroy函数详解

发表于2025-08-03由麦芽爸

io_destroy 函数详解

1. 函数介绍

io_destroy 是Linux传统异步I/O (AIO) 系统调用，用于销毁和清理之前通过 io_setup 创建的异步I/O上下文。它是AIO框架的重要组成部分，负责释放与AIO上下文相关的所有内核资源，包括环形缓冲区、等待队列和其他内部数据结构。

2. 函数原型

#include <linux/aio_abi.h>
#include <sys/syscall.h>
#include <unistd.h>

int io_destroy(aio_context_t ctx);

3. 功能

io_destroy 彻底销毁指定的AIO上下文，释放所有相关的内核资源。在销毁过程中，所有未完成的异步操作都会被取消，相关的事件会被清除，确保系统资源得到正确回收。

4. 参数

aio_context_t ctx: 要销毁的AIO上下文ID（由io_setup返回）

5. 返回值

成功: 返回0
失败: 返回负的错误码

6. 相似函数，或关联函数

io_setup: 初始化AIO上下文
io_submit: 提交异步I/O操作
io_cancel: 取消异步I/O操作
io_getevents: 获取完成的异步I/O事件
close: 关闭文件描述符

7. 示例代码

示例1：基础io_destroy使用

#include <linux/aio_abi.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>

/**
 * 系统调用包装函数
 */
static inline int io_setup(unsigned nr_events, aio_context_t *ctxp) {
    return syscall(__NR_io_setup, nr_events, ctxp);
}

static inline int io_destroy(aio_context_t ctx) {
    return syscall(__NR_io_destroy, ctx);
}

static inline int io_submit(aio_context_t ctx, long nr, struct iocb **iocbpp) {
    return syscall(__NR_io_submit, ctx, nr, iocbpp);
}

static inline int io_cancel(aio_context_t ctx, struct iocb *iocb, struct io_event *result) {
    return syscall(__NR_io_cancel, ctx, iocb, result);
}

static inline int io_getevents(aio_context_t ctx, long min_nr, long nr, 
                              struct io_event *events, struct timespec *timeout) {
    return syscall(__NR_io_getevents, ctx, min_nr, nr, events, timeout);
}

/**
 * 演示基础io_destroy使用方法
 */
int demo_io_destroy_basic() {
    aio_context_t ctx;
    int ret;
    
    printf("=== 基础io_destroy使用示例 ===\n");
    
    // 初始化AIO上下文
    printf("1. 初始化AIO上下文:\n");
    ctx = 0;
    ret = io_setup(128, &ctx);
    if (ret < 0) {
        printf("  初始化AIO上下文失败: %s\n", strerror(-ret));
        return -1;
    }
    printf("  ✓ AIO上下文初始化成功\n");
    printf("  上下文ID: %llu\n", (unsigned long long)ctx);
    
    // 显示上下文信息
    printf("  上下文状态: 已创建\n");
    printf("  缓冲区大小: 128 个事件\n");
    
    // 创建测试文件
    printf("\n2. 创建测试文件:\n");
    const char *filename = "io_destroy_test.txt";
    int fd = open(filename, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd == -1) {
        perror("  创建测试文件失败");
        io_destroy(ctx);
        return -1;
    }
    printf("  ✓ 测试文件创建成功: %s\n", filename);
    
    // 准备异步写入操作
    printf("\n3. 准备异步写入操作:\n");
    char test_data[] = "Test data for io_destroy demonstration.\n";
    struct iocb iocb;
    
    memset(&iocb, 0, sizeof(iocb));
    iocb.aio_data = 12345;
    iocb.aio_lio_opcode = IOCB_CMD_PWRITE;
    iocb.aio_fildes = fd;
    iocb.aio_buf = (uint64_t)(uintptr_t)test_data;
    iocb.aio_nbytes = strlen(test_data);
    iocb.aio_offset = 0;
    
    printf("  准备异步写入操作:\n");
    printf("    文件描述符: %d\n", fd);
    printf("    数据大小: %zu 字节\n", strlen(test_data));
    printf("    用户数据: %llu\n", (unsigned long long)iocb.aio_data);
    
    // 提交异步操作
    printf("\n4. 提交异步操作:\n");
    struct iocb *iocbs[1] = {&iocb};
    ret = io_submit(ctx, 1, iocbs);
    if (ret != 1) {
        printf("  提交异步操作失败: %s\n", strerror(-ret));
        close(fd);
        unlink(filename);
        io_destroy(ctx);
        return -1;
    }
    printf("  ✓ 异步操作提交成功\n");
    
    // 等待操作完成
    printf("\n5. 等待操作完成:\n");
    struct io_event events[1];
    struct timespec timeout = {5, 0};  // 5秒超时
    
    ret = io_getevents(ctx, 1, 1, events, &timeout);
    if (ret > 0) {
        printf("  ✓ 操作完成\n");
        printf("    用户数据: %llu\n", (unsigned long long)events[0].data);
        printf("    结果: %ld 字节\n", events[0].res);
        printf("    错误: %ld\n", events[0].res2);
    } else if (ret == 0) {
        printf("  ⚠ 操作超时\n");
    } else {
        printf("  ✗ 等待完成事件失败: %s\n", strerror(-ret));
    }
    
    // 关闭文件
    printf("\n6. 关闭文件:\n");
    close(fd);
    printf("  ✓ 文件关闭成功\n");
    
    // 销毁AIO上下文
    printf("\n7. 销毁AIO上下文:\n");
    printf("  调用: io_destroy(%llu)\n", (unsigned long long)ctx);
    
    ret = io_destroy(ctx);
    if (ret == 0) {
        printf("  ✓ AIO上下文销毁成功\n");
        printf("  上下文状态: 已销毁\n");
    } else {
        printf("  ✗ AIO上下文销毁失败: %s\n", strerror(-ret));
        if (ret == -EINVAL) {
            printf("  原因：无效的上下文ID\n");
        } else if (ret == -EAGAIN) {
            printf("  原因：上下文中仍有未完成的操作\n");
        }
    }
    
    // 清理测试文件
    printf("\n8. 清理测试文件:\n");
    if (unlink(filename) == 0) {
        printf("  ✓ 测试文件清理成功\n");
    } else {
        printf("  ✗ 测试文件清理失败: %s\n", strerror(errno));
    }
    
    return 0;
}

int main() {
    return demo_io_destroy_basic();
}

示例2：资源泄漏检测

#include <linux/aio_abi.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>
#include <sys/resource.h>

/**
 * 资源使用统计结构
 */
typedef struct {
    unsigned long open_files;
    unsigned long memory_usage_kb;
    unsigned long aio_contexts;
} resource_usage_t;

/**
 * 获取资源使用情况
 */
int get_resource_usage(resource_usage_t *usage) {
    // 获取打开文件数
    struct rlimit rl;
    if (getrlimit(RLIMIT_NOFILE, &rl) == 0) {
        usage->open_files = rl.rlim_cur;
    } else {
        usage->open_files = 0;
    }
    
    // 获取内存使用情况
    FILE *fp = fopen("/proc/self/status", "r");
    if (fp) {
        char line[256];
        while (fgets(line, sizeof(line), fp)) {
            if (strncmp(line, "VmRSS:", 6) == 0) {
                sscanf(line + 6, "%lu", &usage->memory_usage_kb);
                break;
            }
        }
        fclose(fp);
    } else {
        usage->memory_usage_kb = 0;
    }
    
    // 获取AIO上下文信息（简化的模拟）
    usage->aio_contexts = 0;  // 实际应用中需要更复杂的实现
    
    return 0;
}

/**
 * 显示资源使用情况
 */
void show_resource_usage(const char *label, const resource_usage_t *usage) {
    printf("%s:\n", label);
    printf("  打开文件数: %lu\n", usage->open_files);
    printf("  内存使用: %lu KB\n", usage->memory_usage_kb);
    printf("  AIO上下文: %lu\n", usage->aio_contexts);
}

/**
 * 演示资源泄漏检测
 */
int demo_resource_leak_detection() {
    aio_context_t contexts[10];
    resource_usage_t before_usage, after_usage, after_destroy_usage;
    int created_count = 0;
    int destroyed_count = 0;
    
    printf("=== 资源泄漏检测演示 ===\n");
    
    // 获取初始资源使用情况
    printf("1. 获取初始资源使用情况:\n");
    if (get_resource_usage(&before_usage) == 0) {
        show_resource_usage("  初始状态", &before_usage);
    }
    
    // 创建多个AIO上下文
    printf("\n2. 创建多个AIO上下文:\n");
    
    for (int i = 0; i < 10; i++) {
        contexts[i] = 0;
        int ret = io_setup(64, &contexts[i]);
        if (ret == 0) {
            printf("  ✓ 创建AIO上下文 %d: ID=%llu\n", i + 1, (unsigned long long)contexts[i]);
            created_count++;
        } else {
            printf("  ✗ 创建AIO上下文 %d 失败: %s\n", i + 1, strerror(-ret));
        }
    }
    
    printf("  成功创建 %d 个AIO上下文\n", created_count);
    
    // 获取创建后的资源使用情况
    printf("\n3. 获取创建后的资源使用情况:\n");
    sleep(1);  // 等待系统更新资源统计
    
    if (get_resource_usage(&after_usage) == 0) {
        show_resource_usage("  创建后状态", &after_usage);
        
        // 显示资源变化
        if (after_usage.memory_usage_kb > before_usage.memory_usage_kb) {
            printf("  内存使用增加: %lu KB\n", 
                   after_usage.memory_usage_kb - before_usage.memory_usage_kb);
        }
    }
    
    // 销毁部分AIO上下文
    printf("\n4. 销毁部分AIO上下文:\n");
    
    // 销毁前5个上下文
    for (int i = 0; i < 5 && i < created_count; i++) {
        int ret = io_destroy(contexts[i]);
        if (ret == 0) {
            printf("  ✓ 销毁AIO上下文 %d: ID=%llu\n", i + 1, (unsigned long long)contexts[i]);
            destroyed_count++;
            contexts[i] = 0;  // 标记为已销毁
        } else {
            printf("  ✗ 销毁AIO上下文 %d 失败: %s\n", i + 1, strerror(-ret));
        }
    }
    
    printf("  成功销毁 %d 个AIO上下文\n", destroyed_count);
    
    // 获取销毁后的资源使用情况
    printf("\n5. 获取销毁后的资源使用情况:\n");
    sleep(1);  // 等待系统更新资源统计
    
    if (get_resource_usage(&after_destroy_usage) == 0) {
        show_resource_usage("  销毁后状态", &after_destroy_usage);
        
        // 显示资源变化
        if (after_destroy_usage.memory_usage_kb < after_usage.memory_usage_kb) {
            printf("  内存使用减少: %lu KB\n", 
                   after_usage.memory_usage_kb - after_destroy_usage.memory_usage_kb);
        }
        
        if (after_destroy_usage.memory_usage_kb < before_usage.memory_usage_kb) {
            printf("  内存使用净减少: %lu KB\n", 
                   before_usage.memory_usage_kb - after_destroy_usage.memory_usage_kb);
        }
    }
    
    // 销毁剩余的AIO上下文
    printf("\n6. 销毁剩余的AIO上下文:\n");
    
    for (int i = 5; i < created_count; i++) {
        if (contexts[i] != 0) {  // 未被销毁的上下文
            int ret = io_destroy(contexts[i]);
            if (ret == 0) {
                printf("  ✓ 销毁AIO上下文 %d: ID=%llu\n", i + 1, (unsigned long long)contexts[i]);
                destroyed_count++;
            } else {
                printf("  ✗ 销毁AIO上下文 %d 失败: %s\n", i + 1, strerror(-ret));
            }
        }
    }
    
    printf("  总共销毁 %d 个AIO上下文\n", destroyed_count);
    
    // 最终资源使用情况
    printf("\n7. 最终资源使用情况:\n");
    resource_usage_t final_usage;
    sleep(1);  // 等待系统更新资源统计
    
    if (get_resource_usage(&final_usage) == 0) {
        show_resource_usage("  最终状态", &final_usage);
        
        // 资源泄漏检测
        printf("\n8. 资源泄漏检测:\n");
        
        if (final_usage.memory_usage_kb <= before_usage.memory_usage_kb + 100) {
            printf("  ✓ 内存资源回收良好\n");
        } else {
            printf("  ⚠ 可能存在内存泄漏\n");
            printf("    内存使用增加: %lu KB\n", 
                   final_usage.memory_usage_kb - before_usage.memory_usage_kb);
        }
        
        if (final_usage.open_files == before_usage.open_files) {
            printf("  ✓ 文件描述符资源回收良好\n");
        } else {
            printf("  ⚠ 可能存在文件描述符泄漏\n");
        }
    }
    
    // 显示资源管理最佳实践
    printf("\n=== 资源管理最佳实践 ===\n");
    printf("1. 及时销毁:\n");
    printf("   ✓ 使用完AIO上下文后立即销毁\n");
    printf("   ✓ 避免长期持有不必要的上下文\n");
    printf("   ✓ 批量销毁提高效率\n");
    
    printf("\n2. 错误处理:\n");
    printf("   ✓ 妥善处理销毁失败的情况\n");
    printf("   ✓ 记录销毁操作日志\n");
    printf("   ✓ 重试机制处理临时失败\n");
    
    printf("\n3. 资源监控:\n");
    printf("   ✓ 监控资源使用情况\n");
    printf("   ✓ 检测潜在的资源泄漏\n");
    printf("   ✓ 定期清理闲置资源\n");
    
    printf("\n4. 安全考虑:\n");
    printf("   ✓ 验证上下文ID的有效性\n");
    printf("   ✓ 避免重复销毁同一上下文\n");
    printf("   ✓ 处理并发访问问题\n");
    
    return 0;
}

int main() {
    return demo_resource_leak_detection();
}

示例3：批量销毁管理

#include <linux/aio_abi.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>
#include <time.h>

/**
 * AIO上下文管理器结构
 */
typedef struct {
    aio_context_t contexts[64];
    int context_count;
    int max_contexts;
    time_t creation_time;
    unsigned long total_created;
    unsigned long total_destroyed;
} aio_context_manager_t;

/**
 * 初始化AIO上下文管理器
 */
int init_aio_context_manager(aio_context_manager_t *manager) {
    memset(manager, 0, sizeof(aio_context_manager_t));
    manager->max_contexts = 64;
    manager->creation_time = time(NULL);
    manager->total_created = 0;
    manager->total_destroyed = 0;
    
    printf("AIO上下文管理器初始化完成\n");
    printf("  最大上下文数: %d\n", manager->max_contexts);
    printf("  创建时间: %s", ctime(&manager->creation_time));
    
    return 0;
}

/**
 * 创建AIO上下文
 */
int create_aio_context(aio_context_manager_t *manager, unsigned nr_events, aio_context_t *ctx) {
    if (manager->context_count >= manager->max_contexts) {
        printf("AIO上下文数量已达上限\n");
        return -1;
    }
    
    *ctx = 0;
    int ret = io_setup(nr_events, ctx);
    if (ret == 0) {
        manager->contexts[manager->context_count] = *ctx;
        manager->context_count++;
        manager->total_created++;
        printf("创建AIO上下文成功: ID=%llu\n", (unsigned long long)*ctx);
        return 0;
    } else {
        printf("创建AIO上下文失败: %s\n", strerror(-ret));
        return -1;
    }
}

/**
 * 批量销毁AIO上下文
 */
int batch_destroy_aio_contexts(aio_context_manager_t *manager) {
    printf("批量销毁AIO上下文:\n");
    printf("  当前上下文数量: %d\n", manager->context_count);
    
    int destroyed_count = 0;
    int failed_count = 0;
    
    // 从后往前销毁（避免数组索引问题）
    for (int i = manager->context_count - 1; i >= 0; i--) {
        aio_context_t ctx = manager->contexts[i];
        if (ctx != 0) {
            int ret = io_destroy(ctx);
            if (ret == 0) {
                printf("  ✓ 销毁上下文 %d: ID=%llu\n", i + 1, (unsigned long long)ctx);
                destroyed_count++;
                manager->total_destroyed++;
                
                // 从数组中移除
                for (int j = i; j < manager->context_count - 1; j++) {
                    manager->contexts[j] = manager->contexts[j + 1];
                }
                manager->context_count--;
            } else {
                printf("  ✗ 销毁上下文 %d 失败: %s\n", i + 1, strerror(-ret));
                failed_count++;
            }
        }
    }
    
    printf("批量销毁完成:\n");
    printf("  成功销毁: %d 个\n", destroyed_count);
    printf("  销毁失败: %d 个\n", failed_count);
    printf("  剩余上下文: %d 个\n", manager->context_count);
    
    return (failed_count == 0) ? 0 : -1;
}

/**
 * 销毁所有AIO上下文
 */
int destroy_all_aio_contexts(aio_context_manager_t *manager) {
    printf("销毁所有AIO上下文:\n");
    
    if (manager->context_count == 0) {
        printf("  没有待销毁的上下文\n");
        return 0;
    }
    
    return batch_destroy_aio_contexts(manager);
}

/**
 * 演示批量销毁管理
 */
int demo_batch_destroy_management() {
    aio_context_manager_t manager;
    
    printf("=== 批量销毁管理演示 ===\n");
    
    // 初始化管理器
    printf("1. 初始化AIO上下文管理器:\n");
    if (init_aio_context_manager(&manager) != 0) {
        return -1;
    }
    
    // 创建多个AIO上下文
    printf("\n2. 创建多个AIO上下文:\n");
    
    const int create_count = 10;
    aio_context_t created_contexts[create_count];
    int successful_creates = 0;
    
    for (int i = 0; i < create_count; i++) {
        printf("  创建第 %d 个上下文:\n", i + 1);
        
        if (create_aio_context(&manager, 32, &created_contexts[i]) == 0) {
            successful_creates++;
        } else {
            created_contexts[i] = 0;  // 标记为创建失败
        }
        
        // 短暂延迟以避免系统过载
        if (i < create_count - 1) {
            usleep(10000);  // 10ms延迟
        }
    }
    
    printf("  创建完成:\n");
    printf("    尝试创建: %d 个\n", create_count);
    printf("    成功创建: %d 个\n", successful_creates);
    printf("    创建失败: %d 个\n", create_count - successful_creates);
    printf("    管理器状态: %d 个上下文\n", manager.context_count);
    
    // 显示当前管理器状态
    printf("\n3. 当前管理器状态:\n");
    printf("  总创建数: %lu\n", manager.total_created);
    printf("  总销毁数: %lu\n", manager.total_destroyed);
    printf("  当前上下文数: %d\n", manager.context_count);
    printf("  管理器运行时间: %ld 秒\n", 
           (long)difftime(time(NULL), manager.creation_time));
    
    // 显示所有上下文ID
    printf("  当前上下文ID列表:\n");
    for (int i = 0; i < manager.context_count; i++) {
        printf("    %d: %llu\n", i + 1, (unsigned long long)manager.contexts[i]);
    }
    
    // 批量销毁
    printf("\n4. 批量销毁操作:\n");
    if (destroy_all_aio_contexts(&manager) != 0) {
        printf("  批量销毁过程中出现错误\n");
    }
    
    // 验证销毁结果
    printf("\n5. 验证销毁结果:\n");
    printf("  销毁后状态:\n");
    printf("    当前上下文数: %d\n", manager.context_count);
    printf("    总销毁数: %lu\n", manager.total_destroyed);
    printf("    剩余上下文ID:\n");
    
    if (manager.context_count > 0) {
        for (int i = 0; i < manager.context_count; i++) {
            printf("      %d: %llu\n", i + 1, (unsigned long long)manager.contexts[i]);
        }
        printf("    ⚠ 警告：仍有 %d 个上下文未被销毁\n", manager.context_count);
    } else {
        printf("      无\n");
        printf("    ✓ 所有上下文均已销毁\n");
    }
    
    // 重新创建一些上下文进行最终销毁测试
    printf("\n6. 最终销毁测试:\n");
    
    // 重新创建几个上下文
    printf("  重新创建测试上下文:\n");
    for (int i = 0; i < 3; i++) {
        if (create_aio_context(&manager, 16, &created_contexts[i]) == 0) {
            printf("    重新创建上下文 %d 成功\n", i + 1);
        }
    }
    
    printf("  重新创建后状态:\n");
    printf("    当前上下文数: %d\n", manager.context_count);
    printf("    总创建数: %lu\n", manager.total_created);
    
    // 最终批量销毁
    printf("  执行最终批量销毁:\n");
    if (destroy_all_aio_contexts(&manager) == 0) {
        printf("  ✓ 最终批量销毁成功\n");
    } else {
        printf("  ✗ 最终批量销毁失败\n");
    }
    
    // 显示最终统计
    printf("\n7. 最终统计:\n");
    printf("  管理器生命周期统计:\n");
    printf("    总创建数: %lu\n", manager.total_created);
    printf("    总销毁数: %lu\n", manager.total_destroyed);
    printf("    当前上下文数: %d\n", manager.context_count);
    printf("    运行时间: %ld 秒\n", 
           (long)difftime(time(NULL), manager.creation_time));
    
    if (manager.total_created == manager.total_destroyed && manager.context_count == 0) {
        printf("  ✓ 资源管理完整性检查通过\n");
    } else {
        printf("  ⚠ 资源管理完整性检查失败\n");
        printf("    可能存在资源泄漏\n");
    }
    
    return 0;
}

int main() {
    return demo_batch_destroy_management();
}

示例4：异常情况处理

#include <linux/aio_abi.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>

/**
 * 系统调用包装函数
 */
static inline int io_setup(unsigned nr_events, aio_context_t *ctxp) {
    return syscall(__NR_io_setup, nr_events, ctxp);
}

static inline int io_destroy(aio_context_t ctx) {
    return syscall(__NR_io_destroy, ctx);
}

static inline int io_submit(aio_context_t ctx, long nr, struct iocb **iocbpp) {
    return syscall(__NR_io_submit, ctx, nr, iocbpp);
}

/**
 * 演示异常情况处理
 */
int demo_exception_handling() {
    aio_context_t ctx;
    int ret;
    
    printf("=== 异常情况处理演示 ===\n");
    
    // 1. 销毁无效的上下文ID
    printf("1. 销毁无效的上下文ID:\n");
    
    // 测试销毁0值上下文ID
    printf("  测试销毁上下文ID 0:\n");
    ret = io_destroy(0);
    if (ret == 0) {
        printf("    ✓ 销毁成功（可能表示空操作）\n");
    } else {
        printf("    %s\n", strerror(-ret));
        if (ret == -EINVAL) {
            printf("    ✓ 预期结果：无效的上下文ID\n");
        } else {
            printf("    ✗ 意外错误\n");
        }
    }
    
    // 测试销毁负值上下文ID
    printf("  测试销毁负值上下文ID (-1):\n");
    ret = io_destroy((aio_context_t)-1);
    if (ret == 0) {
        printf("    ✓ 销毁成功\n");
    } else {
        printf("    %s\n", strerror(-ret));
        if (ret == -EINVAL) {
            printf("    ✓ 预期结果：无效的上下文ID\n");
        } else {
            printf("    ✗ 意外错误\n");
        }
    }
    
    // 测试销毁超大值上下文ID
    printf("  测试销毁超大值上下文ID:\n");
    aio_context_t large_ctx = (aio_context_t)0x7FFFFFFFFFFFFFFFULL;
    ret = io_destroy(large_ctx);
    if (ret == 0) {
        printf("    ✓ 销毁成功\n");
    } else {
        printf("    %s\n", strerror(-ret));
        if (ret == -EINVAL) {
            printf("    ✓ 预期结果：无效的上下文ID\n");
        } else {
            printf("    ✗ 意外错误\n");
        }
    }
    
    // 2. 重复销毁同一上下文
    printf("\n2. 重复销毁同一上下文:\n");
    
    // 创建一个有效的上下文
    printf("  创建有效上下文:\n");
    ctx = 0;
    ret = io_setup(32, &ctx);
    if (ret == 0) {
        printf("    ✓ 上下文创建成功: ID=%llu\n", (unsigned long long)ctx);
        
        // 第一次销毁
        printf("  第一次销毁:\n");
        ret = io_destroy(ctx);
        if (ret == 0) {
            printf("    ✓ 第一次销毁成功\n");
        } else {
            printf("    ✗ 第一次销毁失败: %s\n", strerror(-ret));
        }
        
        // 第二次销毁同一上下文（应该失败）
        printf("  第二次销毁同一上下文:\n");
        ret = io_destroy(ctx);
        if (ret == 0) {
            printf("    ✓ 第二次销毁成功（可能表示幂等操作）\n");
        } else {
            printf("    %s\n", strerror(-ret));
            if (ret == -EINVAL) {
                printf("    ✓ 预期结果：上下文已销毁\n");
            } else {
                printf("    ✗ 意外错误\n");
            }
        }
    } else {
        printf("    ✗ 创建上下文失败: %s\n", strerror(-ret));
    }
    
    // 3. 销毁正在使用的上下文
    printf("\n3. 销毁正在使用的上下文:\n");
    
    // 创建新的上下文
    printf("  创建新上下文:\n");
    ctx = 0;
    ret = io_setup(64, &ctx);
    if (ret == 0) {
        printf("    ✓ 新上下文创建成功: ID=%llu\n", (unsigned long long)ctx);
        
        // 创建测试文件
        const char *filename = "in_use_test.txt";
        int fd = open(filename, O_CREAT | O_WRONLY | O_TRUNC, 0644);
        if (fd != -1) {
            printf("    ✓ 测试文件创建成功\n");
            
            // 准备长时间写入操作
            char *large_data = malloc(1024 * 1024);  // 1MB数据
            if (large_data) {
                // 填充测试数据
                for (int i = 0; i < 1024 * 1024; i++) {
                    large_data[i] = 'A' + (i % 26);
                }
                
                // 准备异步写入操作
                struct iocb iocb;
                memset(&iocb, 0, sizeof(iocb));
                iocb.aio_data = 999;
                iocb.aio_lio_opcode = IOCB_CMD_PWRITE;
                iocb.aio_fildes = fd;
                iocb.aio_buf = (uint64_t)(uintptr_t)large_data;
                iocb.aio_nbytes = 1024 * 1024;
                iocb.aio_offset = 0;
                
                // 提交异步操作
                struct iocb *iocbs[1] = {&iocb};
                ret = io_submit(ctx, 1, iocbs);
                if (ret == 1) {
                    printf("    ✓ 异步写入操作提交成功\n");
                    
                    // 立即尝试销毁上下文
                    printf("  立即尝试销毁正在使用的上下文:\n");
                    ret = io_destroy(ctx);
                    if (ret == 0) {
                        printf("    ✓ 上下文销毁成功\n");
                    } else {
                        printf("    %s\n", strerror(-ret));
                        if (ret == -EAGAIN) {
                            printf("    ✓ 预期结果：上下文正在使用中\n");
                        } else if (ret == -EINVAL) {
                            printf("    ✓ 预期结果：上下文无效\n");
                        } else {
                            printf("    ✗ 意外错误\n");
                        }
                    }
                } else {
                    printf("    ✗ 提交异步操作失败: %s\n", strerror(-ret));
                }
                
                free(large_data);
            }
            
            close(fd);
            unlink(filename);
        }
    } else {
        printf("    ✗ 创建新上下文失败: %s\n", strerror(-ret));
    }
    
    // 4. 错误恢复演示
    printf("\n4. 错误恢复演示:\n");
    
    // 模拟错误恢复场景
    printf("  错误恢复策略:\n");
    printf("    1. 验证上下文ID有效性\n");
    printf("    2. 检查上下文使用状态\n");
    printf("    3. 尝试取消未完成操作\n");
    printf("    4. 安全销毁上下文\n");
    printf("    5. 记录错误日志\n");
    printf("    6. 通知上层应用\n");
    
    // 5. 资源清理验证
    printf("\n5. 资源清理验证:\n");
    
    // 创建多个上下文用于清理验证
    aio_context_t test_contexts[5];
    int created_count = 0;
    
    printf("  创建测试上下文:\n");
    for (int i = 0; i < 5; i++) {
        test_contexts[i] = 0;
        ret = io_setup(16, &test_contexts[i]);
        if (ret == 0) {
            printf("    ✓ 上下文 %d 创建成功: ID=%llu\n", 
                   i + 1, (unsigned long long)test_contexts[i]);
            created_count++;
        } else {
            printf("    ✗ 上下文 %d 创建失败: %s\n", i + 1, strerror(-ret));
            test_contexts[i] = 0;  // 标记为未创建
        }
    }
    
    printf("  清理所有测试上下文:\n");
    int destroyed_count = 0;
    int error_count = 0;
    
    for (int i = 0; i < 5; i++) {
        if (test_contexts[i] != 0) {
            ret = io_destroy(test_contexts[i]);
            if (ret == 0) {
                printf("    ✓ 上下文 %d 销毁成功\n", i + 1);
                destroyed_count++;
            } else {
                printf("    ✗ 上下文 %d 销毁失败: %s\n", i + 1, strerror(-ret));
                error_count++;
            }
        }
    }
    
    printf("  清理结果:\n");
    printf("    成功销毁: %d 个\n", destroyed_count);
    printf("    销毁失败: %d 个\n", error_count);
    printf("    总计处理: %d 个\n", destroyed_count + error_count);
    
    // 6. 最终状态检查
    printf("\n6. 最终状态检查:\n");
    printf("  系统状态:\n");
    printf("    ✓ 错误处理机制正常\n");
    printf("    ✓ 资源清理机制正常\n");
    printf("    ✓ 状态恢复机制正常\n");
    printf("    ✓ 日志记录机制正常\n");
    
    return 0;
}

int main() {
    return demo_exception_handling();
}

示例5：生产环境使用模式

#include <linux/aio_abi.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>
#include <pthread.h>
#include <signal.h>
#include <sys/time.h>

/**
 * 生产环境AIO上下文管理器
 */
typedef struct {
    aio_context_t ctx;
    int is_initialized;
    int is_destroyed;
    time_t create_time;
    time_t destroy_time;
    unsigned long operations_submitted;
    unsigned long operations_completed;
    unsigned long operations_cancelled;
    pthread_mutex_t mutex;
    volatile int shutdown_requested;
} production_aio_context_t;

/**
 * 系统调用包装函数
 */
static inline int io_setup(unsigned nr_events, aio_context_t *ctxp) {
    return syscall(__NR_io_setup, nr_events, ctxp);
}

static inline int io_destroy(aio_context_t ctx) {
    return syscall(__NR_io_destroy, ctx);
}

static inline int io_submit(aio_context_t ctx, long nr, struct iocb **iocbpp) {
    return syscall(__NR_io_submit, ctx, nr, iocbsp);
}

static inline int io_cancel(aio_context_t ctx, struct iocb *iocb, struct io_event *result) {
    return syscall(__NR_io_cancel, ctx, iocb, result);
}

static inline int io_getevents(aio_context_t ctx, long min_nr, long nr, 
                              struct io_event *events, struct timespec *timeout) {
    return syscall(__NR_io_getevents, ctx, min_nr, nr, events, timeout);
}

/**
 * 初始化生产环境AIO上下文
 */
int init_production_aio_context(production_aio_context_t *ctx, unsigned nr_events) {
    // 初始化结构体
    memset(ctx, 0, sizeof(production_aio_context_t));
    ctx->create_time = time(NULL);
    ctx->is_initialized = 0;
    ctx->is_destroyed = 0;
    ctx->shutdown_requested = 0;
    
    // 初始化互斥锁
    if (pthread_mutex_init(&ctx->mutex, NULL) != 0) {
        printf("初始化互斥锁失败\n");
        return -1;
    }
    
    // 创建AIO上下文
    ctx->ctx = 0;
    int ret = io_setup(nr_events, &ctx->ctx);
    if (ret != 0) {
        printf("创建AIO上下文失败: %s\n", strerror(-ret));
        pthread_mutex_destroy(&ctx->mutex);
        return -1;
    }
    
    ctx->is_initialized = 1;
    printf("生产环境AIO上下文初始化成功:\n");
    printf("  上下文ID: %llu\n", (unsigned long long)ctx->ctx);
    printf("  缓冲区大小: %u 事件\n", nr_events);
    printf("  创建时间: %s", ctime(&ctx->create_time));
    
    return 0;
}

/**
 * 安全销毁生产环境AIO上下文
 */
int destroy_production_aio_context(production_aio_context_t *ctx) {
    if (!ctx) {
        printf("上下文指针无效\n");
        return -1;
    }
    
    // 获取互斥锁
    if (pthread_mutex_lock(&ctx->mutex) != 0) {
        printf("获取互斥锁失败\n");
        return -1;
    }
    
    // 检查是否已经销毁
    if (ctx->is_destroyed) {
        printf("上下文已销毁，无需重复操作\n");
        pthread_mutex_unlock(&ctx->mutex);
        return 0;
    }
    
    // 设置关闭请求标志
    ctx->shutdown_requested = 1;
    
    // 取消所有未完成的操作
    printf("取消所有未完成的操作...\n");
    // 这里应该实现取消未完成操作的逻辑
    
    // 销毁AIO上下文
    printf("销毁AIO上下文: %llu\n", (unsigned long long)ctx->ctx);
    int ret = io_destroy(ctx->ctx);
    if (ret != 0) {
        printf("销毁AIO上下文失败: %s\n", strerror(-ret));
        if (ret == -EAGAIN) {
            printf("  原因：上下文中仍有未完成的操作\n");
        } else if (ret == -EINVAL) {
            printf("  原因：无效的上下文ID\n");
        }
        
        // 即使销毁失败也要清理资源
        ctx->is_destroyed = 1;
        ctx->destroy_time = time(NULL);
        pthread_mutex_unlock(&ctx->mutex);
        pthread_mutex_destroy(&ctx->mutex);
        return -1;
    }
    
    ctx->is_destroyed = 1;
    ctx->destroy_time = time(NULL);
    
    // 显示统计信息
    printf("AIO上下文销毁成功:\n");
    printf("  销毁时间: %s", ctime(&ctx->destroy_time));
    printf("  运行时间: %ld 秒\n", 
           (long)difftime(ctx->destroy_time, ctx->create_time));
    printf("  提交操作数: %lu\n", ctx->operations_submitted);
    printf("  完成操作数: %lu\n", ctx->operations_completed);
    printf("  取消操作数: %lu\n", ctx->operations_cancelled);
    
    pthread_mutex_unlock(&ctx->mutex);
    pthread_mutex_destroy(&ctx->mutex);
    
    return 0;
}

/**
 * 优雅关闭信号处理
 */
void graceful_shutdown_handler(int sig) {
    printf("\n收到关闭信号 %d，开始优雅关闭...\n", sig);
    // 这里应该通知所有AIO上下文管理器开始关闭
}

/**
 * 演示生产环境使用模式
 */
int demo_production_usage_pattern() {
    production_aio_context_t aio_ctx;
    struct sigaction sa;
    
    printf("=== 生产环境使用模式演示 ===\n");
    
    // 设置信号处理
    printf("1. 设置信号处理:\n");
    memset(&sa, 0, sizeof(sa));
    sa.sa_handler = graceful_shutdown_handler;
    sigemptyset(&sa.sa_mask);
    sa.sa_flags = 0;
    
    if (sigaction(SIGINT, &sa, NULL) == 0) {
        printf("  ✓ SIGINT信号处理设置成功\n");
    } else {
        printf("  ✗ SIGINT信号处理设置失败: %s\n", strerror(errno));
    }
    
    if (sigaction(SIGTERM, &sa, NULL) == 0) {
        printf("  ✓ SIGTERM信号处理设置成功\n");
    } else {
        printf("  ✗ SIGTERM信号处理设置失败: %s\n", strerror(errno));
    }
    
    // 初始化AIO上下文
    printf("\n2. 初始化生产环境AIO上下文:\n");
    if (init_production_aio_context(&aio_ctx, 1024) != 0) {
        printf("初始化生产环境AIO上下文失败\n");
        return -1;
    }
    
    printf("  ✓ 生产环境AIO上下文初始化成功\n");
    
    // 模拟生产环境操作
    printf("\n3. 模拟生产环境操作:\n");
    
    // 模拟提交操作
    printf("  模拟提交异步操作:\n");
    for (int i = 0; i < 100; i++) {
        // 这里应该是实际的异步操作提交
        aio_ctx.operations_submitted++;
        
        if (i % 20 == 0) {
            printf("    已提交 %d 个操作\n", i);
        }
        
        // 模拟操作完成
        if (i % 3 == 0) {
            aio_ctx.operations_completed++;
        }
        
        // 模拟操作取消
        if (i % 7 == 0) {
            aio_ctx.operations_cancelled++;
        }
    }
    
    printf("  ✓ 模拟操作完成\n");
    printf("    总提交: %lu\n", aio_ctx.operations_submitted);
    printf("    总完成: %lu\n", aio_ctx.operations_completed);
    printf("    总取消: %lu\n", aio_ctx.operations_cancelled);
    
    // 模拟运行期间的状态监控
    printf("\n4. 模拟运行期间状态监控:\n");
    
    // 显示当前状态
    printf("  当前AIO上下文状态:\n");
    printf("    已初始化: %s\n", aio_ctx.is_initialized ? "是" : "否");
    printf("    已销毁: %s\n", aio_ctx.is_destroyed ? "是" : "否");
    printf("    关闭请求: %s\n", aio_ctx.shutdown_requested ? "是" : "否");
    printf("    运行时间: %ld 秒\n", 
           (long)difftime(time(NULL), aio_ctx.create_time));
    
    // 模拟健康检查
    printf("  健康检查:\n");
    printf("    ✓ 上下文ID有效性检查\n");
    printf("    ✓ 内存使用情况检查\n");
    printf("    ✓ 操作队列状态检查\n");
    printf("    ✓ 错误率统计检查\n");
    
    // 模拟优雅关闭
    printf("\n5. 模拟优雅关闭:\n");
    
    // 设置关闭标志
    printf("  设置关闭标志:\n");
    aio_ctx.shutdown_requested = 1;
    printf("    ✓ 关闭请求已设置\n");
    
    // 等待未完成操作
    printf("  等待未完成操作:\n");
    printf("    当前未完成操作数: %lu\n", 
           aio_ctx.operations_submitted - 
           aio_ctx.operations_completed - 
           aio_ctx.operations_cancelled);
    
    // 取消未完成操作
    printf("  取消未完成操作:\n");
    unsigned long pending_operations = aio_ctx.operations_submitted - 
                                      aio_ctx.operations_completed - 
                                      aio_ctx.operations_cancelled;
    printf("    取消 %lu 个未完成操作\n", pending_operations);
    aio_ctx.operations_cancelled += pending_operations;
    
    // 销毁AIO上下文
    printf("  销毁AIO上下文:\n");
    if (destroy_production_aio_context(&aio_ctx) == 0) {
        printf("    ✓ AIO上下文销毁成功\n");
    } else {
        printf("    ✗ AIO上下文销毁失败\n");
    }
    
    // 显示最终统计
    printf("\n6. 最终统计:\n");
    printf("  生命周期统计:\n");
    printf("    创建时间: %s", ctime(&aio_ctx.create_time));
    if (aio_ctx.is_destroyed) {
        printf("    销毁时间: %s", ctime(&aio_ctx.destroy_time));
        printf("    运行时间: %ld 秒\n", 
               (long)difftime(aio_ctx.destroy_time, aio_ctx.create_time));
    }
    
    printf("  操作统计:\n");
    printf("    总提交操作: %lu\n", aio_ctx.operations_submitted);
    printf("    总完成操作: %lu\n", aio_ctx.operations_completed);
    printf("    总取消操作: %lu\n", aio_ctx.operations_cancelled);
    
    // 显示生产环境最佳实践
    printf("\n=== 生产环境最佳实践 ===\n");
    printf("1. 初始化管理:\n");
    printf("   ✓ 延迟初始化\n");
    printf("   ✓ 配置验证\n");
    printf("   ✓ 资源预留\n");
    printf("   ✓ 错误恢复\n");
    
    printf("\n2. 运行时管理:\n");
    printf("   ✓ 状态监控\n");
    printf("   ✓ 性能统计\n");
    printf("   ✓ 错误处理\n");
    printf("   ✓ 资源池管理\n");
    
    printf("\n3. 优雅关闭:\n");
    printf("   ✓ 信号处理\n");
    printf("   ✓ 操作清理\n");
    printf("   ✓ 资源释放\n");
    printf("   ✓ 状态保存\n");
    
    printf("\n4. 错误恢复:\n");
    printf("   ✓ 重试机制\n");
    printf("   ✓ 降级处理\n");
    printf("   ✓ 告警通知\n");
    printf("   ✓ 日志记录\n");
    
    printf("\n5. 监控告警:\n");
    printf("   ✓ 性能指标\n");
    printf("   ✓ 错误率统计\n");
    printf("   ✓ 资源使用率\n");
    printf("   ✓ 健康检查\n");
    
    return 0;
}

int main() {
    return demo_production_usage_pattern();
}

io_destroy 使用注意事项

系统要求：

内核版本: 支持AIO的Linux内核
权限要求: 通常不需要特殊权限
架构支持: 支持所有主流架构

销毁时机：

使用完成后: AIO上下文不再需要时立即销毁
程序退出前: 确保所有上下文都被正确销毁
异常处理: 异常情况下也要销毁上下文

错误处理：

EINVAL: 无效的上下文ID
EAGAIN: 上下文中仍有未完成的操作
EFAULT: 上下文指针无效

资源管理：

及时销毁: 避免资源泄漏
批量销毁: 提高销毁效率
状态检查: 销毁前检查上下文状态
错误恢复: 处理销毁失败的情况

性能考虑：

销毁开销: 销毁操作有一定开销
批量操作: 批量销毁比单独销毁更高效
异步销毁: 大量上下文时考虑异步销毁
资源回收: 及时回收系统资源

安全考虑：

权限验证: 确保有权限销毁上下文
参数验证: 验证上下文ID的有效性
状态检查: 检查上下文使用状态
并发控制: 多线程环境下的同步控制

最佳实践：

RAII原则: 使用完立即销毁
异常安全: 异常情况下也能正确销毁
资源统计: 统计和监控资源使用情况
日志记录: 记录销毁操作日志
错误处理: 妥善处理销毁失败的情况

io_destroy vs 相似函数对比

io_destroy vs close：

// io_destroy: 销毁AIO上下文
io_destroy(ctx);

// close: 关闭文件描述符
close(fd);

io_destroy vs free：

// io_destroy: 销毁内核资源
io_destroy(ctx);

// free: 释放用户空间内存
free(ptr);

常见使用场景

1. 服务器应用：

// 服务器退出时销毁所有AIO上下文
void server_shutdown() {
    for (int i = 0; i < context_count; i++) {
        io_destroy(contexts[i]);
    }
}

2. 批处理应用：

// 批处理完成后销毁AIO上下文
void batch_cleanup() {
    batch_destroy_aio_contexts(&manager);
}

3. 插件系统：

// 插件卸载时销毁相关AIO上下文
void plugin_unload() {
    destroy_plugin_aio_contexts();
}

系统限制和约束

1. 上下文数量限制：

// 系统限制可通过以下方式查看：
cat /proc/sys/fs/aio-max-nr    # 最大AIO上下文数
cat /proc/sys/fs/aio-nr        # 当前AIO上下文数

2. 内存限制：

// 每个AIO上下文都有内存开销
// 需要合理控制上下文数量

3. 文件描述符限制：

// AIO操作涉及的文件描述符也需要管理
// 避免文件描述符泄漏

错误恢复策略

1. 重试机制：

int safe_io_destroy(aio_context_t ctx) {
    int retries = 3;
    int result;
    
    while (retries-- > 0) {
        result = io_destroy(ctx);
        if (result == 0) {
            return 0;  // 成功
        }
        
        if (result == -EAGAIN) {
            // 等待未完成操作
            usleep(100000);  // 100ms
            continue;
        }
        
        break;  // 其他错误不重试
    }
    
    return result;
}

2. 状态检查：

int validate_context_before_destroy(aio_context_t ctx) {
    // 检查上下文是否有效
    if (ctx == 0) {
        return -1;  // 无效上下文
    }
    
    // 检查上下文是否已被销毁
    // 这需要应用层维护状态
    
    return 0;
}

3. 资源清理：

int comprehensive_cleanup(aio_context_t ctx) {
    // 取消所有未完成操作
    cancel_pending_operations(ctx);
    
    // 等待操作完成
    wait_for_operations_completion(ctx);
    
    // 销毁上下文
    return io_destroy(ctx);
}

总结

io_destroy 是Linux AIO框架中重要的资源清理函数，提供了：

资源回收: 释放AIO上下文相关的内核资源
内存管理: 回收环形缓冲区和其他数据结构
状态清理: 清理上下文相关的等待队列和状态
安全保障: 确保系统资源得到正确回收

通过合理使用 io_destroy，可以构建健壮的异步I/O应用。在实际应用中，需要注意资源管理、错误处理和性能优化等关键问题。特别是在生产环境中，需要实现完善的错误恢复和优雅关闭机制，确保系统的稳定性和可靠性。

发表在 linux文章 | 留下评论

io_cancel系统调用及示例

发表于2025-08-03由麦芽爸

io_cancel 函数详解

1. 函数介绍

io_cancel 是Linux传统异步I/O (AIO) 系统调用，用于取消先前提交但尚未完成的异步I/O操作。它是AIO框架的重要组成部分，允许应用程序在必要时取消正在进行的异步操作，提供更灵活的I/O控制能力。

2. 函数原型

#include <linux/aio_abi.h>
int io_cancel(aio_context_t ctx_id, struct iocb *iocb, struct io_event *result);

3. 功能

io_cancel 尝试取消指定的异步I/O操作。如果操作仍在排队或尚未开始执行，则可以成功取消；如果操作已经开始执行或已经完成，则取消可能失败。成功取消的操作会返回一个带有ECANCELED错误码的完成事件。

4. 参数

aio_context_t ctx_id: AIO上下文ID（由io_setup创建）
*struct iocb iocb: 要取消的异步I/O控制块指针
*struct io_event result: 用于存储取消结果的事件结构指针

5. 返回值

成功: 返回0
失败: 返回负的错误码

6. 相似函数，或关联函数

io_setup: 初始化AIO上下文
io_destroy: 销毁AIO上下文
io_submit: 提交异步I/O操作
io_getevents: 获取完成的异步I/O事件
io_pgetevents: 带信号处理的事件获取

7. 示例代码

示例1：基础io_cancel使用

#include <linux/aio_abi.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>
#include <time.h>

/**
 * 系统调用包装函数
 */
static inline int io_setup(unsigned nr_events, aio_context_t *ctxp) {
    return syscall(__NR_io_setup, nr_events, ctxp);
}

static inline int io_destroy(aio_context_t ctx) {
    return syscall(__NR_io_destroy, ctx);
}

static inline int io_submit(aio_context_t ctx, long nr, struct iocb **iocbpp) {
    return syscall(__NR_io_submit, ctx, nr, iocbpp);
}

static inline int io_cancel(aio_context_t ctx, struct iocb *iocb, struct io_event *result) {
    return syscall(__NR_io_cancel, ctx, iocb, result);
}

static inline int io_getevents(aio_context_t ctx, long min_nr, long nr, 
                              struct io_event *events, struct timespec *timeout) {
    return syscall(__NR_io_getevents, ctx, min_nr, nr, events, timeout);
}

/**
 * 演示基础io_cancel使用方法
 */
int demo_io_cancel_basic() {
    aio_context_t ctx;
    struct iocb iocb;
    struct io_event result;
    int fd;
    int ret;
    
    printf("=== 基础io_cancel使用示例 ===\n");
    
    // 初始化AIO上下文
    printf("1. 初始化AIO上下文:\n");
    ctx = 0;
    ret = io_setup(128, &ctx);
    if (ret < 0) {
        printf("  初始化AIO上下文失败: %s\n", strerror(-ret));
        return -1;
    }
    printf("  ✓ AIO上下文初始化成功\n");
    printf("  上下文ID: %llu\n", (unsigned long long)ctx);
    
    // 创建测试文件
    printf("\n2. 创建测试文件:\n");
    const char *filename = "aio_cancel_test.txt";
    fd = open(filename, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd == -1) {
        perror("  创建测试文件失败");
        io_destroy(ctx);
        return -1;
    }
    printf("  ✓ 测试文件创建成功: %s\n", filename);
    
    // 准备异步写入操作
    printf("\n3. 准备异步写入操作:\n");
    char *test_data = "This is test data for AIO cancel operation.\n";
    size_t data_size = strlen(test_data);
    
    // 初始化iocb结构
    memset(&iocb, 0, sizeof(iocb));
    iocb.aio_data = 12345;  // 用户数据
    iocb.aio_key = 0;
    iocb.aio_rw_flags = 0;
    iocb.aio_lio_opcode = IOCB_CMD_PWRITE;  // 异步写入
    iocb.aio_reqprio = 0;
    iocb.aio_fildes = fd;
    iocb.aio_buf = (uint64_t)(uintptr_t)test_data;
    iocb.aio_nbytes = data_size;
    iocb.aio_offset = 0;
    iocb.aio_flags = 0;
    iocb.aio_resfd = 0;
    
    printf("  准备异步写入操作:\n");
    printf("    文件描述符: %d\n", fd);
    printf("    数据大小: %zu 字节\n", data_size);
    printf("    用户数据: %llu\n", (unsigned long long)iocb.aio_data);
    
    // 提交异步操作
    printf("\n4. 提交异步操作:\n");
    struct iocb *iocbs[1] = {&iocb};
    ret = io_submit(ctx, 1, iocbs);
    if (ret != 1) {
        printf("  提交异步操作失败: %s\n", strerror(-ret));
        close(fd);
        unlink(filename);
        io_destroy(ctx);
        return -1;
    }
    printf("  ✓ 异步操作提交成功\n");
    
    // 立即尝试取消操作
    printf("\n5. 立即尝试取消操作:\n");
    ret = io_cancel(ctx, &iocb, &result);
    if (ret == 0) {
        printf("  ✓ 操作取消成功\n");
        printf("  取消结果:\n");
        printf("    用户数据: %llu\n", (unsigned long long)result.data);
        printf("    结果: %ld\n", result.res);
        printf("    结果2: %ld\n", result.res2);
        if (result.res == -ECANCELED) {
            printf("    状态: 操作已取消 (ECANCELED)\n");
        }
    } else if (ret == -EAGAIN) {
        printf("  ℹ 操作无法取消 (可能已开始执行或已完成)\n");
        
        // 等待操作完成
        printf("  等待操作完成...\n");
        struct io_event events[1];
        ret = io_getevents(ctx, 1, 1, events, NULL);
        if (ret > 0) {
            printf("  ✓ 操作完成\n");
            printf("    用户数据: %llu\n", (unsigned long long)events[0].data);
            printf("    结果: %ld 字节\n", events[0].res);
        }
    } else {
        printf("  ✗ 取消操作失败: %s\n", strerror(-ret));
    }
    
    // 演示延时取消
    printf("\n6. 演示延时取消:\n");
    
    // 创建一个更大的写入操作
    char *large_data = malloc(1024 * 1024);  // 1MB数据
    if (large_data) {
        // 填充数据
        for (int i = 0; i < 1024 * 1024; i++) {
            large_data[i] = 'A' + (i % 26);
        }
        
        // 准备新的iocb
        struct iocb large_iocb;
        memset(&large_iocb, 0, sizeof(large_iocb));
        large_iocb.aio_data = 54321;
        large_iocb.aio_lio_opcode = IOCB_CMD_PWRITE;
        large_iocb.aio_fildes = fd;
        large_iocb.aio_buf = (uint64_t)(uintptr_t)large_data;
        large_iocb.aio_nbytes = 1024 * 1024;
        large_iocb.aio_offset = data_size;  // 在之前数据之后
        
        printf("  准备大块数据写入操作 (1MB)\n");
        
        struct iocb *large_iocbs[1] = {&large_iocb};
        ret = io_submit(ctx, 1, large_iocbs);
        if (ret == 1) {
            printf("  ✓ 大块数据写入操作提交成功\n");
            
            // 短暂延迟后尝试取消
            printf("  等待100ms后尝试取消...\n");
            usleep(100000);  // 100ms
            
            struct io_event cancel_result;
            ret = io_cancel(ctx, &large_iocb, &cancel_result);
            if (ret == 0) {
                printf("  ✓ 大块数据写入操作取消成功\n");
            } else if (ret == -EAGAIN) {
                printf("  ℹ 大块数据写入操作无法取消\n");
                
                // 等待操作完成
                struct io_event events[1];
                int wait_ret = io_getevents(ctx, 1, 1, events, NULL);
                if (wait_ret > 0) {
                    printf("  ✓ 大块数据写入完成: %ld 字节\n", events[0].res);
                }
            } else {
                printf("  ✗ 取消大块数据写入失败: %s\n", strerror(-ret));
            }
        }
        
        free(large_data);
    }
    
    // 清理资源
    printf("\n7. 清理资源:\n");
    close(fd);
    unlink(filename);
    io_destroy(ctx);
    printf("  ✓ 资源清理完成\n");
    
    return 0;
}

int main() {
    return demo_io_cancel_basic();
}

示例2：批量操作取消

#include <linux/aio_abi.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>
#include <time.h>

/**
 * 系统调用包装函数
 */
static inline int io_setup(unsigned nr_events, aio_context_t *ctxp) {
    return syscall(__NR_io_setup, nr_events, ctxp);
}

static inline int io_destroy(aio_context_t ctx) {
    return syscall(__NR_io_destroy, ctx);
}

static inline int io_submit(aio_context_t ctx, long nr, struct iocb **iocbpp) {
    return syscall(__NR_io_submit, ctx, nr, iocbpp);
}

static inline int io_cancel(aio_context_t ctx, struct iocb *iocb, struct io_event *result) {
    return syscall(__NR_io_cancel, ctx, iocb, result);
}

static inline int io_getevents(aio_context_t ctx, long min_nr, long nr, 
                              struct io_event *events, struct timespec *timeout) {
    return syscall(__NR_io_getevents, ctx, min_nr, nr, events, timeout);
}

/**
 * 批量操作取消演示
 */
int demo_batch_cancel() {
    aio_context_t ctx;
    const int batch_size = 8;
    struct iocb iocbs[batch_size];
    struct io_event results[batch_size];
    int fd;
    int ret;
    char *test_files[batch_size];
    
    printf("=== 批量操作取消演示 ===\n");
    
    // 初始化AIO上下文
    printf("1. 初始化AIO上下文:\n");
    ctx = 0;
    ret = io_setup(128, &ctx);
    if (ret < 0) {
        printf("  初始化AIO上下文失败: %s\n", strerror(-ret));
        return -1;
    }
    printf("  ✓ AIO上下文初始化成功\n");
    
    // 创建测试文件
    printf("\n2. 创建测试文件:\n");
    for (int i = 0; i < batch_size; i++) {
        char filename[32];
        snprintf(filename, sizeof(filename), "batch_cancel_%d.txt", i);
        test_files[i] = strdup(filename);
        
        fd = open(filename, O_CREAT | O_WRONLY | O_TRUNC, 0644);
        if (fd != -1) {
            // 写入一些初始数据使文件不为空
            char initial_data[256];
            memset(initial_data, 'A' + i, sizeof(initial_data) - 1);
            initial_data[sizeof(initial_data) - 1] = '\0';
            write(fd, initial_data, sizeof(initial_data) - 1);
            close(fd);
            printf("  创建测试文件 %d: %s\n", i, filename);
        }
    }
    
    // 准备批量异步读取操作
    printf("\n3. 准备批量异步读取操作:\n");
    struct iocb *iocb_ptrs[batch_size];
    
    for (int i = 0; i < batch_size; i++) {
        fd = open(test_files[i], O_RDONLY);
        if (fd == -1) {
            printf("  打开文件 %s 失败\n", test_files[i]);
            continue;
        }
        
        // 初始化iocb
        memset(&iocbs[i], 0, sizeof(iocbs[i]));
        iocbs[i].aio_data = i + 1;  // 使用索引作为用户数据
        iocbs[i].aio_lio_opcode = IOCB_CMD_PREAD;
        iocbs[i].aio_fildes = fd;
        
        // 分配读取缓冲区
        char *read_buffer = malloc(1024);
        if (read_buffer) {
            iocbs[i].aio_buf = (uint64_t)(uintptr_t)read_buffer;
            iocbs[i].aio_nbytes = 1024;
            iocbs[i].aio_offset = 0;
        }
        
        iocb_ptrs[i] = &iocbs[i];
        printf("  准备读取操作 %d: 文件 %s\n", i + 1, test_files[i]);
    }
    
    // 提交批量操作
    printf("\n4. 提交批量异步操作:\n");
    ret = io_submit(ctx, batch_size, iocb_ptrs);
    if (ret < 0) {
        printf("  提交批量操作失败: %s\n", strerror(-ret));
        goto cleanup;
    }
    printf("  ✓ 成功提交 %d 个异步操作\n", ret);
    
    // 演示部分取消
    printf("\n5. 演示部分操作取消:\n");
    int cancel_count = 0;
    
    for (int i = 0; i < batch_size; i += 2) {  // 取消偶数索引的操作
        ret = io_cancel(ctx, &iocbs[i], &results[cancel_count]);
        if (ret == 0) {
            printf("  ✓ 操作 %d 取消成功\n", (int)iocbs[i].aio_data);
            cancel_count++;
        } else if (ret == -EAGAIN) {
            printf("  ℹ 操作 %d 无法取消 (可能已开始执行)\n", (int)iocbs[i].aio_data);
        } else {
            printf("  ✗ 操作 %d 取消失败: %s\n", (int)iocbs[i].aio_data, strerror(-ret));
        }
    }
    
    printf("  总共尝试取消 %d 个操作\n", cancel_count);
    
    // 等待剩余操作完成
    printf("\n6. 等待剩余操作完成:\n");
    struct io_event completed_events[batch_size];
    int completed_count = 0;
    
    // 等待最多5秒
    struct timespec timeout = {5, 0};
    ret = io_getevents(ctx, 1, batch_size, completed_events, &timeout);
    if (ret > 0) {
        printf("  ✓ 收到 %d 个完成事件\n", ret);
        completed_count = ret;
        
        for (int i = 0; i < ret; i++) {
            printf("    操作 %llu 完成: %ld 字节\n", 
                   (unsigned long long)completed_events[i].data,
                   completed_events[i].res);
        }
    } else if (ret == 0) {
        printf("  ⚠ 超时，没有收到完成事件\n");
    } else {
        printf("  ✗ 等待完成事件失败: %s\n", strerror(-ret));
    }
    
    // 显示取消结果
    printf("\n7. 取消结果统计:\n");
    printf("  尝试取消的操作数: %d\n", cancel_count);
    printf("  完成的操作数: %d\n", completed_count);
    printf("  总操作数: %d\n", batch_size);
    
    // 清理资源
cleanup:
    printf("\n8. 清理资源:\n");
    
    // 关闭文件描述符和释放缓冲区
    for (int i = 0; i < batch_size; i++) {
        if (iocbs[i].aio_fildes > 0) {
            close(iocbs[i].aio_fildes);
        }
        if (iocbs[i].aio_buf) {
            free((void*)(uintptr_t)iocbs[i].aio_buf);
        }
        if (test_files[i]) {
            unlink(test_files[i]);
            free(test_files[i]);
        }
    }
    
    io_destroy(ctx);
    printf("  ✓ 所有资源清理完成\n");
    
    return 0;
}

int main() {
    return demo_batch_cancel();
}

示例3：超时取消机制

#include <linux/aio_abi.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>
#include <time.h>
#include <signal.h>

/**
 * 系统调用包装函数
 */
static inline int io_setup(unsigned nr_events, aio_context_t *ctxp) {
    return syscall(__NR_io_setup, nr_events, ctxp);
}

static inline int io_destroy(aio_context_t ctx) {
    return syscall(__NR_io_destroy, ctx);
}

static inline int io_submit(aio_context_t ctx, long nr, struct iocb **iocbpp) {
    return syscall(__NR_io_submit, ctx, nr, iocbpp);
}

static inline int io_cancel(aio_context_t ctx, struct iocb *iocb, struct io_event *result) {
    return syscall(__NR_io_cancel, ctx, iocb, result);
}

static inline int io_getevents(aio_context_t ctx, long min_nr, long nr, 
                              struct io_event *events, struct timespec *timeout) {
    return syscall(__NR_io_getevents, ctx, min_nr, nr, events, timeout);
}

/**
 * 超时取消上下文
 */
typedef struct {
    aio_context_t ctx;
    struct iocb *iocb;
    int is_completed;
    int is_cancelled;
    time_t start_time;
    int timeout_seconds;
} timeout_cancel_ctx_t;

/**
 * 超时处理函数
 */
void timeout_handler(int sig) {
    printf("收到超时信号\n");
}

/**
 * 演示超时取消机制
 */
int demo_timeout_cancel_mechanism() {
    aio_context_t ctx;
    struct iocb iocb;
    struct io_event result;
    int fd;
    int ret;
    
    printf("=== 超时取消机制演示 ===\n");
    
    // 初始化AIO上下文
    printf("1. 初始化AIO上下文:\n");
    ctx = 0;
    ret = io_setup(64, &ctx);
    if (ret < 0) {
        printf("  初始化AIO上下文失败: %s\n", strerror(-ret));
        return -1;
    }
    printf("  ✓ AIO上下文初始化成功\n");
    
    // 创建测试文件
    printf("\n2. 创建测试文件:\n");
    const char *filename = "timeout_test.txt";
    fd = open(filename, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd == -1) {
        perror("  创建测试文件失败");
        io_destroy(ctx);
        return -1;
    }
    
    // 写入大量数据
    char *large_data = malloc(10 * 1024 * 1024);  // 10MB数据
    if (large_data) {
        for (int i = 0; i < 10 * 1024 * 1024; i++) {
            large_data[i] = 'A' + (i % 26);
        }
        write(fd, large_data, 10 * 1024 * 1024);
    }
    close(fd);
    
    printf("  ✓ 创建了10MB测试文件: %s\n", filename);
    
    // 重新打开文件进行读取
    fd = open(filename, O_RDONLY);
    if (fd == -1) {
        perror("  打开测试文件失败");
        io_destroy(ctx);
        unlink(filename);
        return -1;
    }
    
    // 准备长时间读取操作
    printf("\n3. 准备长时间读取操作:\n");
    char *read_buffer = malloc(5 * 1024 * 1024);  // 5MB缓冲区
    if (!read_buffer) {
        perror("  分配读取缓冲区失败");
        close(fd);
        io_destroy(ctx);
        unlink(filename);
        return -1;
    }
    
    // 初始化iocb
    memset(&iocb, 0, sizeof(iocb));
    iocb.aio_data = 99999;
    iocb.aio_lio_opcode = IOCB_CMD_PREAD;
    iocb.aio_fildes = fd;
    iocb.aio_buf = (uint64_t)(uintptr_t)read_buffer;
    iocb.aio_nbytes = 5 * 1024 * 1024;  // 读取5MB
    iocb.aio_offset = 0;
    
    printf("  准备读取5MB数据\n");
    
    // 提交异步读取操作
    struct iocb *iocbs[1] = {&iocb};
    ret = io_submit(ctx, 1, iocbs);
    if (ret != 1) {
        printf("  提交异步读取操作失败: %s\n", strerror(-ret));
        free(read_buffer);
        close(fd);
        io_destroy(ctx);
        unlink(filename);
        return -1;
    }
    printf("  ✓ 异步读取操作提交成功\n");
    
    // 设置超时处理
    printf("\n4. 设置超时处理:\n");
    time_t start_time = time(NULL);
    const int timeout_seconds = 3;
    
    printf("  设置超时时间: %d 秒\n", timeout_seconds);
    
    // 等待操作完成或超时
    printf("\n5. 等待操作完成或超时:\n");
    struct io_event events[1];
    struct timespec timeout = {1, 0};  // 1秒超时
    
    int operation_completed = 0;
    int cancel_attempted = 0;
    
    while (difftime(time(NULL), start_time) < timeout_seconds) {
        ret = io_getevents(ctx, 0, 1, events, &timeout);
        if (ret > 0) {
            printf("  ✓ 操作在超时前完成\n");
            printf("    读取字节数: %ld\n", events[0].res);
            operation_completed = 1;
            break;
        } else if (ret == 0) {
            printf("  操作仍在进行中...\n");
            
            // 每秒检查一次是否需要取消
            if (!cancel_attempted && difftime(time(NULL), start_time) >= 2) {
                printf("  2秒后尝试取消操作\n");
                struct io_event cancel_result;
                ret = io_cancel(ctx, &iocb, &cancel_result);
                if (ret == 0) {
                    printf("  ✓ 操作取消成功\n");
                    cancel_attempted = 1;
                    break;
                } else if (ret == -EAGAIN) {
                    printf("  ℹ 操作无法取消\n");
                    cancel_attempted = 1;
                } else {
                    printf("  ✗ 取消操作失败: %s\n", strerror(-ret));
                    cancel_attempted = 1;
                }
            }
        } else {
            printf("  ✗ 等待事件失败: %s\n", strerror(-ret));
            break;
        }
    }
    
    // 超时后的处理
    if (!operation_completed && !cancel_attempted) {
        printf("\n6. 超时处理:\n");
        printf("  操作超时 (%d 秒)\n", timeout_seconds);
        
        // 强制取消操作
        printf("  强制取消操作...\n");
        struct io_event cancel_result;
        ret = io_cancel(ctx, &iocb, &cancel_result);
        if (ret == 0) {
            printf("  ✓ 操作取消成功\n");
        } else if (ret == -EAGAIN) {
            printf("  ℹ 操作无法取消\n");
        } else {
            printf("  ✗ 取消操作失败: %s\n", strerror(-ret));
        }
    }
    
    // 等待最终结果
    printf("\n7. 等待最终结果:\n");
    timeout.tv_sec = 2;  // 2秒超时
    timeout.tv_nsec = 0;
    
    ret = io_getevents(ctx, 0, 1, events, &timeout);
    if (ret > 0) {
        printf("  最终结果:\n");
        printf("    用户数据: %llu\n", (unsigned long long)events[0].data);
        printf("    结果: %ld\n", events[0].res);
        if (events[0].res == -ECANCELED) {
            printf("    状态: 操作已取消\n");
        } else if (events[0].res < 0) {
            printf("    错误: %s\n", strerror(-events[0].res));
        } else {
            printf("    成功读取: %ld 字节\n", events[0].res);
        }
    } else if (ret == 0) {
        printf("  超时，无结果返回\n");
    } else {
        printf("  等待结果失败: %s\n", strerror(-ret));
    }
    
    // 清理资源
    printf("\n8. 清理资源:\n");
    free(read_buffer);
    close(fd);
    unlink(filename);
    io_destroy(ctx);
    printf("  ✓ 资源清理完成\n");
    
    return 0;
}

int main() {
    return demo_timeout_cancel_mechanism();
}

示例4：条件取消策略

#include <linux/aio_abi.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>
#include <time.h>
#include <pthread.h>

/**
 * 系统调用包装函数
 */
static inline int io_setup(unsigned nr_events, aio_context_t *ctxp) {
    return syscall(__NR_io_setup, nr_events, ctxp);
}

static inline int io_destroy(aio_context_t ctx) {
    return syscall(__NR_io_destroy, ctx);
}

static inline int io_submit(aio_context_t ctx, long nr, struct iocb **iocbpp) {
    return syscall(__NR_io_submit, ctx, nr, iocbpp);
}

static inline int io_cancel(aio_context_t ctx, struct iocb *iocb, struct io_event *result) {
    return syscall(__NR_io_cancel, ctx, iocb, result);
}

static inline int io_getevents(aio_context_t ctx, long min_nr, long nr, 
                              struct io_event *events, struct timespec *timeout) {
    return syscall(__NR_io_getevents, ctx, min_nr, nr, events, timeout);
}

/**
 * 取消策略枚举
 */
typedef enum {
    CANCEL_STRATEGY_IMMEDIATE,    // 立即取消
    CANCEL_STRATEGY_TIMEOUT,     // 超时取消
    CANCEL_STRATEGY_CONDITIONAL, // 条件取消
    CANCEL_STRATEGY_NEVER         // 从不取消
} cancel_strategy_t;

/**
 * 操作上下文
 */
typedef struct {
    struct iocb iocb;
    int is_submitted;
    int is_completed;
    int is_cancelled;
    time_t submit_time;
    cancel_strategy_t strategy;
    int timeout_seconds;
    int condition_value;
} operation_context_t;

/**
 * 条件取消检查函数
 */
int check_cancel_condition(operation_context_t *ctx) {
    switch (ctx->strategy) {
        case CANCEL_STRATEGY_IMMEDIATE:
            return 1;  // 立即取消
            
        case CANCEL_STRATEGY_TIMEOUT:
            if (difftime(time(NULL), ctx->submit_time) > ctx->timeout_seconds) {
                printf("  操作超时，触发取消\n");
                return 1;
            }
            return 0;
            
        case CANCEL_STRATEGY_CONDITIONAL:
            // 模拟条件检查
            if (ctx->condition_value > 100) {
                printf("  条件满足，触发取消\n");
                return 1;
            }
            return 0;
            
        case CANCEL_STRATEGY_NEVER:
        default:
            return 0;
    }
}

/**
 * 演示条件取消策略
 */
int demo_conditional_cancel_strategy() {
    aio_context_t ctx;
    operation_context_t operations[5];
    int fd;
    int ret;
    
    printf("=== 条件取消策略演示 ===\n");
    
    // 初始化AIO上下文
    printf("1. 初始化AIO上下文:\n");
    ctx = 0;
    ret = io_setup(64, &ctx);
    if (ret < 0) {
        printf("  初始化AIO上下文失败: %s\n", strerror(-ret));
        return -1;
    }
    printf("  ✓ AIO上下文初始化成功\n");
    
    // 创建测试文件
    printf("\n2. 创建测试文件:\n");
    const char *filename = "conditional_cancel_test.txt";
    fd = open(filename, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd == -1) {
        perror("  创建测试文件失败");
        io_destroy(ctx);
        return -1;
    }
    
    // 写入测试数据
    char *test_data = malloc(1024 * 1024);  // 1MB数据
    if (test_data) {
        for (int i = 0; i < 1024 * 1024; i++) {
            test_data[i] = 'A' + (i % 26);
        }
        write(fd, test_data, 1024 * 1024);
    }
    close(fd);
    free(test_data);
    
    printf("  ✓ 创建了1MB测试文件: %s\n", filename);
    
    // 重新打开文件进行读取
    fd = open(filename, O_RDONLY);
    if (fd == -1) {
        perror("  打开测试文件失败");
        io_destroy(ctx);
        unlink(filename);
        return -1;
    }
    
    // 初始化操作上下文
    printf("\n3. 初始化操作上下文:\n");
    for (int i = 0; i < 5; i++) {
        operation_context_t *op_ctx = &operations[i];
        memset(op_ctx, 0, sizeof(*op_ctx));
        
        // 设置不同的取消策略
        switch (i % 4) {
            case 0:
                op_ctx->strategy = CANCEL_STRATEGY_IMMEDIATE;
                printf("  操作 %d: 立即取消策略\n", i + 1);
                break;
            case 1:
                op_ctx->strategy = CANCEL_STRATEGY_TIMEOUT;
                op_ctx->timeout_seconds = 2;  // 2秒超时
                printf("  操作 %d: 超时取消策略 (2秒)\n", i + 1);
                break;
            case 2:
                op_ctx->strategy = CANCEL_STRATEGY_CONDITIONAL;
                op_ctx->condition_value = i * 50;  // 不同的条件值
                printf("  操作 %d: 条件取消策略 (条件值: %d)\n", i + 1, op_ctx->condition_value);
                break;
            case 3:
                op_ctx->strategy = CANCEL_STRATEGY_NEVER;
                printf("  操作 %d: 从不取消策略\n", i + 1);
                break;
        }
    }
    
    // 准备异步读取操作
    printf("\n4. 准备异步读取操作:\n");
    struct iocb *iocb_ptrs[5];
    
    for (int i = 0; i < 5; i++) {
        operation_context_t *op_ctx = &operations[i];
        
        // 初始化iocb
        memset(&op_ctx->iocb, 0, sizeof(op_ctx->iocb));
        op_ctx->iocb.aio_data = i + 1;
        op_ctx->iocb.aio_lio_opcode = IOCB_CMD_PREAD;
        op_ctx->iocb.aio_fildes = fd;
        
        // 分配读取缓冲区
        char *read_buffer = malloc(200 * 1024);  // 200KB缓冲区
        if (read_buffer) {
            op_ctx->iocb.aio_buf = (uint64_t)(uintptr_t)read_buffer;
            op_ctx->iocb.aio_nbytes = 200 * 1024;
            op_ctx->iocb.aio_offset = i * 200 * 1024;  // 不同的偏移量
            
            iocb_ptrs[i] = &op_ctx->iocb;
            op_ctx->is_submitted = 1;
            op_ctx->submit_time = time(NULL);
            
            printf("  准备操作 %d: 读取200KB数据\n", i + 1);
        }
    }
    
    // 提交异步操作
    printf("\n5. 提交异步操作:\n");
    ret = io_submit(ctx, 5, iocb_ptrs);
    if (ret < 0) {
        printf("  提交异步操作失败: %s\n", strerror(-ret));
        goto cleanup;
    }
    printf("  ✓ 成功提交 %d 个异步操作\n", ret);
    
    // 执行取消策略
    printf("\n6. 执行取消策略:\n");
    time_t start_time = time(NULL);
    int completed_operations = 0;
    int cancelled_operations = 0;
    
    // 监控和取消操作
    while (difftime(time(NULL), start_time) < 10) {  // 最多等待10秒
        // 检查取消条件
        for (int i = 0; i < 5; i++) {
            operation_context_t *op_ctx = &operations[i];
            
            if (op_ctx->is_submitted && !op_ctx->is_completed && !op_ctx->is_cancelled) {
                if (check_cancel_condition(op_ctx)) {
                    printf("  尝试取消操作 %d\n", i + 1);
                    
                    struct io_event cancel_result;
                    ret = io_cancel(ctx, &op_ctx->iocb, &cancel_result);
                    if (ret == 0) {
                        printf("    ✓ 操作 %d 取消成功\n", i + 1);
                        op_ctx->is_cancelled = 1;
                        cancelled_operations++;
                    } else if (ret == -EAGAIN) {
                        printf("    ℹ 操作 %d 无法取消\n", i + 1);
                    } else {
                        printf("    ✗ 操作 %d 取消失败: %s\n", i + 1, strerror(-ret));
                    }
                }
            }
        }
        
        // 检查完成事件
        struct io_event events[5];
        struct timespec timeout = {0, 100000000};  // 100ms超时
        
        ret = io_getevents(ctx, 0, 5, events, &timeout);
        if (ret > 0) {
            printf("  收到 %d 个完成事件\n", ret);
            
            for (int i = 0; i < ret; i++) {
                int op_index = events[i].data - 1;
                if (op_index >= 0 && op_index < 5) {
                    operation_context_t *op_ctx = &operations[op_index];
                    op_ctx->is_completed = 1;
                    completed_operations++;
                    
                    printf("    操作 %d 完成: %ld 字节\n", 
                           op_index + 1, events[i].res);
                }
            }
        }
        
        // 检查是否所有操作都已完成或取消
        int all_done = 1;
        for (int i = 0; i < 5; i++) {
            operation_context_t *op_ctx = &operations[i];
            if (op_ctx->is_submitted && !op_ctx->is_completed && !op_ctx->is_cancelled) {
                all_done = 0;
                break;
            }
        }
        
        if (all_done) {
            printf("  所有操作已完成或取消\n");
            break;
        }
        
        // 更新条件值（模拟条件变化）
        for (int i = 0; i < 5; i++) {
            operations[i].condition_value += 10;
        }
        
        usleep(100000);  // 100ms延迟
    }
    
    // 最终统计
    printf("\n7. 最终统计:\n");
    printf("  总操作数: 5\n");
    printf("  完成操作数: %d\n", completed_operations);
    printf("  取消操作数: %d\n", cancelled_operations);
    printf("  进行中操作数: %d\n", 5 - completed_operations - cancelled_operations);
    
    // 显示每个操作的最终状态
    printf("\n8. 操作状态详情:\n");
    for (int i = 0; i < 5; i++) {
        operation_context_t *op_ctx = &operations[i];
        printf("  操作 %d: ", i + 1);
        
        if (op_ctx->is_cancelled) {
            printf("已取消 ");
        } else if (op_ctx->is_completed) {
            printf("已完成 ");
        } else {
            printf("进行中 ");
        }
        
        switch (op_ctx->strategy) {
            case CANCEL_STRATEGY_IMMEDIATE:
                printf("(立即取消策略)");
                break;
            case CANCEL_STRATEGY_TIMEOUT:
                printf("(超时取消策略)");
                break;
            case CANCEL_STRATEGY_CONDITIONAL:
                printf("(条件取消策略)");
                break;
            case CANCEL_STRATEGY_NEVER:
                printf("(从不取消策略)");
                break;
        }
        printf("\n");
    }
    
    // 清理资源
cleanup:
    printf("\n9. 清理资源:\n");
    
    // 释放缓冲区
    for (int i = 0; i < 5; i++) {
        if (operations[i].iocb.aio_buf) {
            free((void*)(uintptr_t)operations[i].iocb.aio_buf);
        }
    }
    
    close(fd);
    unlink(filename);
    io_destroy(ctx);
    printf("  ✓ 资源清理完成\n");
    
    return 0;
}

int main() {
    return demo_conditional_cancel_strategy();
}

示例5：错误处理和恢复

#include <linux/aio_abi.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>
#include <time.h>

/**
 * 系统调用包装函数
 */
static inline int io_setup(unsigned nr_events, aio_context_t *ctxp) {
    return syscall(__NR_io_setup, nr_events, ctxp);
}

static inline int io_destroy(aio_context_t ctx) {
    return syscall(__NR_io_destroy, ctx);
}

static inline int io_submit(aio_context_t ctx, long nr, struct iocb **iocbpp) {
    return syscall(__NR_io_submit, ctx, nr, iocbpp);
}

static inline int io_cancel(aio_context_t ctx, struct iocb *iocb, struct io_event *result) {
    return syscall(__NR_io_cancel, ctx, iocb, result);
}

static inline int io_getevents(aio_context_t ctx, long min_nr, long nr, 
                              struct io_event *events, struct timespec *timeout) {
    return syscall(__NR_io_getevents, ctx, min_nr, nr, events, timeout);
}

/**
 * 错误处理上下文
 */
typedef struct {
    int error_code;
    const char *error_message;
    int retry_count;
    int max_retries;
    time_t error_time;
    const char *operation_name;
} error_context_t;

/**
 * 记录错误信息
 */
void record_error(error_context_t *ctx, int error_code, const char *operation, const char *message) {
    ctx->error_code = error_code;
    ctx->error_message = message;
    ctx->error_time = time(NULL);
    ctx->operation_name = operation;
    ctx->retry_count++;
    
    printf("错误记录: %s\n", operation);
    printf("  错误码: %d\n", error_code);
    printf("  错误信息: %s\n", message);
    printf("  重试次数: %d/%d\n", ctx->retry_count, ctx->max_retries);
}

/**
 * 错误恢复策略
 */
int apply_recovery_strategy(error_context_t *ctx, aio_context_t aio_ctx, struct iocb *iocb) {
    printf("应用错误恢复策略:\n");
    
    switch (ctx->error_code) {
        case -EAGAIN:
            printf("  EAGAIN错误，操作稍后重试\n");
            if (ctx->retry_count < ctx->max_retries) {
                printf("  重试操作...\n");
                struct iocb *iocbs[1] = {iocb};
                int ret = io_submit(aio_ctx, 1, iocbs);
                if (ret == 1) {
                    printf("  ✓ 重试成功\n");
                    return 0;
                } else {
                    printf("  ✗ 重试失败: %s\n", strerror(-ret));
                    record_error(ctx, ret, ctx->operation_name, "重试失败");
                }
            }
            break;
            
        case -ECANCELED:
            printf("  ECANCELED错误，操作已被取消\n");
            printf("  尝试重新提交操作...\n");
            struct iocb *iocbs[1] = {iocb};
            int ret = io_submit(aio_ctx, 1, iocbs);
            if (ret == 1) {
                printf("  ✓ 重新提交成功\n");
                return 0;
            } else {
                printf("  ✗ 重新提交失败: %s\n", strerror(-ret));
                record_error(ctx, ret, ctx->operation_name, "重新提交失败");
            }
            break;
            
        case -EBADF:
            printf("  EBADF错误，文件描述符无效\n");
            printf("  建议：检查文件描述符有效性\n");
            break;
            
        case -EINVAL:
            printf("  EINVAL错误，参数无效\n");
            printf("  建议：检查参数设置\n");
            break;
            
        default:
            printf("  未知错误: %s\n", strerror(-ctx->error_code));
            printf("  建议：记录错误并采取适当措施\n");
            break;
    }
    
    return -1;
}

/**
 * 演示错误处理和恢复
 */
int demo_error_handling_recovery() {
    aio_context_t ctx;
    struct iocb iocb;
    struct io_event result;
    int fd;
    int ret;
    error_context_t error_ctx = {0};
    
    printf("=== 错误处理和恢复演示 ===\n");
    
    // 设置错误处理上下文
    error_ctx.max_retries = 3;
    error_ctx.retry_count = 0;
    
    // 初始化AIO上下文
    printf("1. 初始化AIO上下文:\n");
    ctx = 0;
    ret = io_setup(32, &ctx);
    if (ret < 0) {
        record_error(&error_ctx, ret, "io_setup", "初始化AIO上下文失败");
        apply_recovery_strategy(&error_ctx, ctx, NULL);
        return -1;
    }
    printf("  ✓ AIO上下文初始化成功\n");
    
    // 创建测试文件
    printf("\n2. 创建测试文件:\n");
    const char *filename = "error_recovery_test.txt";
    fd = open(filename, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd == -1) {
        record_error(&error_ctx, -errno, "open", "创建测试文件失败");
        io_destroy(ctx);
        return -1;
    }
    printf("  ✓ 测试文件创建成功\n");
    
    // 准备异步写入操作
    printf("\n3. 准备异步写入操作:\n");
    const char *test_data = "Error handling and recovery test data.\n";
    size_t data_size = strlen(test_data);
    
    memset(&iocb, 0, sizeof(iocb));
    iocb.aio_data = 1001;
    iocb.aio_lio_opcode = IOCB_CMD_PWRITE;
    iocb.aio_fildes = fd;
    iocb.aio_buf = (uint64_t)(uintptr_t)test_data;
    iocb.aio_nbytes = data_size;
    iocb.aio_offset = 0;
    
    printf("  准备写入操作:\n");
    printf("    数据大小: %zu 字节\n", data_size);
    printf("    用户数据: %llu\n", (unsigned long long)iocb.aio_data);
    
    // 提交异步操作
    printf("\n4. 提交异步操作:\n");
    struct iocb *iocbs[1] = {&iocb};
    ret = io_submit(ctx, 1, iocbs);
    if (ret != 1) {
        record_error(&error_ctx, ret, "io_submit", "提交异步操作失败");
        if (apply_recovery_strategy(&error_ctx, ctx, &iocb) != 0) {
            close(fd);
            unlink(filename);
            io_destroy(ctx);
            return -1;
        }
    }
    printf("  ✓ 异步操作提交成功\n");
    
    // 演示各种错误场景
    printf("\n5. 演示错误场景:\n");
    
    // 场景1: 尝试取消已完成的操作
    printf("  场景1: 尝试取消已完成的操作\n");
    struct io_event events[1];
    struct timespec timeout = {2, 0};  // 2秒超时
    
    ret = io_getevents(ctx, 1, 1, events, &timeout);
    if (ret > 0) {
        printf("    操作已完成，尝试取消...\n");
        ret = io_cancel(ctx, &iocb, &result);
        if (ret == -EAGAIN) {
            printf("    ✓ 取消失败：操作已完成 (EAGAIN)\n");
        } else if (ret == 0) {
            printf("    ✓ 操作取消成功\n");
        } else {
            printf("    取消操作返回: %s\n", strerror(-ret));
        }
    }
    
    // 场景2: 使用无效的iocb尝试取消
    printf("\n  场景2: 使用无效的iocb尝试取消\n");
    struct iocb invalid_iocb;
    memset(&invalid_iocb, 0, sizeof(invalid_iocb));
    invalid_iocb.aio_data = 9999;
    
    ret = io_cancel(ctx, &invalid_iocb, &result);
    if (ret == -EAGAIN) {
        printf("    ✓ 取消失败：无效操作 (EAGAIN)\n");
    } else {
        printf("    取消操作返回: %s\n", strerror(-ret));
    }
    
    // 场景3: 使用无效的上下文ID
    printf("\n  场景3: 使用无效的上下文ID\n");
    struct iocb test_iocb;
    memset(&test_iocb, 0, sizeof(test_iocb));
    
    aio_context_t invalid_ctx = (aio_context_t)-1;
    ret = io_cancel(invalid_ctx, &test_iocb, &result);
    if (ret == -EINVAL) {
        printf("    ✓ 操作失败：无效上下文ID (EINVAL)\n");
    } else {
        printf("    取消操作返回: %s\n", strerror(-ret));
    }
    
    // 场景4: 重复取消同一个操作
    printf("\n  场景4: 重复取消操作\n");
    ret = io_cancel(ctx, &iocb, &result);
    if (ret == -EAGAIN) {
        printf("    ✓ 第二次取消失败：操作已处理 (EAGAIN)\n");
    } else if (ret == 0) {
        printf("    ✓ 第二次取消成功\n");
        ret = io_cancel(ctx, &iocb, &result);
        if (ret == -EAGAIN) {
            printf("    ✓ 第三次取消失败：操作已处理 (EAGAIN)\n");
        }
    } else {
        printf("    第二次取消操作返回: %s\n", strerror(-ret));
    }
    
    // 演示资源清理错误处理
    printf("\n6. 演示资源清理错误处理:\n");
    
    // 正常关闭文件
    printf("  正常关闭文件:\n");
    if (close(fd) == 0) {
        printf("    ✓ 文件关闭成功\n");
    } else {
        record_error(&error_ctx, -errno, "close", "关闭文件失败");
        printf("    尝试强制清理...\n");
    }
    
    // 删除测试文件
    printf("  删除测试文件:\n");
    if (unlink(filename) == 0) {
        printf("    ✓ 测试文件删除成功\n");
    } else {
        record_error(&error_ctx, -errno, "unlink", "删除测试文件失败");
        printf("    注意：可能需要手动清理测试文件\n");
    }
    
    // 销毁AIO上下文
    printf("  销毁AIO上下文:\n");
    ret = io_destroy(ctx);
    if (ret == 0) {
        printf("    ✓ AIO上下文销毁成功\n");
    } else {
        record_error(&error_ctx, ret, "io_destroy", "销毁AIO上下文失败");
        printf("    销毁操作返回: %s\n", strerror(-ret));
    }
    
    // 显示错误处理总结
    printf("\n=== 错误处理总结 ===\n");
    printf("1. 常见错误类型:\n");
    printf("   ✓ EAGAIN: 操作无法取消（已完成或不存在）\n");
    printf("   ✓ EINVAL: 参数无效\n");
    printf("   ✓ EBADF: 文件描述符无效\n");
    printf("   ✓ ECANCELED: 操作已被取消\n");
    
    printf("\n2. 错误处理策略:\n");
    printf("   ✓ 记录错误信息\n");
    printf("   ✓ 根据错误类型采取不同措施\n");
    printf("   ✓ 必要时重试操作\n");
    printf("   ✓ 优雅降级处理\n");
    
    printf("\n3. 恢复策略:\n");
    printf("   ✓ 重试机制\n");
    printf("   ✓ 备用方案\n");
    printf("   ✓ 资源清理\n");
    printf("   ✓ 状态恢复\n");
    
    printf("\n4. 最佳实践:\n");
    printf("   ✓ 完善的错误记录\n");
    printf("   ✓ 适当的重试策略\n");
    printf("   ✓ 资源泄漏预防\n");
    printf("   ✓ 用户友好提示\n");
    
    return 0;
}

int main() {
    return demo_error_handling_recovery();
}

io_cancel 使用注意事项

系统要求：

内核版本: 需要支持AIO的Linux内核
权限要求: 通常不需要特殊权限
架构支持: 支持所有主流架构

取消限制：

操作状态: 只能取消排队或正在执行的操作
时间窗口: 已完成的操作无法取消
资源释放: 取消后需要清理相关资源

错误处理：

EAGAIN: 操作无法取消（已完成或不存在）
EINVAL: 参数无效
EBADF: 文件描述符无效
ECANCELED: 操作已被取消

性能考虑：

取消开销: 取消操作本身也有性能开销
批量处理: 批量取消可能更高效
超时设置: 合理设置超时时间
状态检查: 取消前检查操作状态

安全考虑：

参数验证: 验证所有输入参数
内存管理: 确保缓冲区内存有效
资源清理: 及时清理已取消操作的资源
状态同步: 确保多线程环境下的状态一致性

最佳实践：

及时取消: 不需要的操作及时取消
状态跟踪: 跟踪每个操作的状态
错误处理: 妥善处理取消失败的情况
资源管理: 确保资源得到正确释放
超时机制: 实现合理的超时取消机制

io_cancel vs 相似函数对比

io_cancel vs io_destroy：

// io_cancel: 取消单个操作
io_cancel(ctx, &iocb, &result);

// io_destroy: 销毁整个AIO上下文（取消所有操作）
io_destroy(ctx);

io_cancel vs io_getevents：

// io_cancel: 主动取消操作
io_cancel(ctx, &iocb, &result);

// io_getevents: 被动等待操作完成
io_getevents(ctx, 1, 1, events, &timeout);

常见使用场景

1. 超时处理：

// 异步操作超时后取消
if (operation_timeout) {
    io_cancel(ctx, &iocb, &result);
}

2. 用户中断：

// 用户取消操作时取消所有相关异步操作
for (int i = 0; i < operation_count; i++) {
    io_cancel(ctx, &iocbs[i], &results[i]);
}

3. 资源清理：

// 应用程序退出前取消未完成的操作
io_cancel(ctx, &iocb, &result);

总结

io_cancel 是Linux AIO框架中重要的操作取消函数，提供了：

操作控制: 精确控制异步操作的生命周期
资源管理: 及时释放不需要的资源
错误处理: 完善的错误处理机制
灵活性: 支持多种取消策略

通过合理使用 io_cancel，可以构建更加健壮和灵活的异步I/O应用。在实际应用中，需要注意错误处理、资源管理和性能优化等关键问题。

发表在 linux文章 | 留下评论

access系统调用及示例

发表于2025-08-03由麦芽爸

我们继续学习 Linux 系统编程中的重要函数。这次我们介绍 access 函数，它用于检查调用进程是否对指定的文件路径具有特定的访问权限（如读、写、执行）或检查文件是否存在。

1. 函数介绍

access 函数是一个 Linux 系统调用，用于根据调用进程的实际用户 ID (UID) 和组 ID (GID) 来检查对文件的权限。它回答了这样的问题：“我（当前运行这个程序的用户）能否读/写/执行这个文件？” 或者更简单地，“这个文件存在吗？”。

这在程序需要在尝试打开或执行文件之前，先确认是否具备相应权限时非常有用，可以避免因权限不足而导致后续操作（如 open, execve）失败。

需要注意的是，access 检查的是调用 access 时的实际权限，即使程序后续通过 setuid 或 setgid 改变了有效用户 ID 或组 ID，access 仍然基于最初的 UID/GID 进行检查。

2. 函数原型

#include <unistd.h> // 必需

int access(const char *pathname, int mode);

3. 功能

权限检查: 检查调用进程对由 pathname 指定的文件是否拥有 mode 参数指定的访问权限。
存在性检查: 特别地，当 mode 设置为 F_OK 时，access 仅检查文件是否存在，而不关心具体的读/写/执行权限。

4. 参数

const char *pathname: 指向一个以空字符 (\0) 结尾的字符串，该字符串包含了要检查权限的文件或目录的路径名。这可以是相对路径或绝对路径。
int mode: 指定要检查的权限类型。这是一个位掩码，可以是以下值的按位或组合：
- F_OK: 检查文件是否存在。
- R_OK: 检查文件是否可读。
- W_OK: 检查文件是否可写。
- X_OK: 检查文件是否可执行。
  例如：
- F_OK: 仅检查文件是否存在。
- R_OK: 检查文件是否可读。
- R_OK | W_OK: 检查文件是否可读且可写。
- X_OK: 检查文件（或目录）是否可执行（对于目录，可执行意味着可以进入该目录）。

5. 返回值

成功时 (具备指定权限或文件存在): 返回 0。
失败时 (不具备指定权限或文件不存在):
- 返回 -1，并设置全局变量 errno 来指示具体的错误原因：
  - EACCES: 请求的权限被拒绝。文件存在，但调用进程没有指定的权限。
  - ENOENT: 文件不存在（或路径名指向的目录不存在）。
  - ELOOP: 解析 pathname 时遇到符号链接环。
  - 其他错误…

6. 相似函数，或关联函数

stat, lstat, fstat: 这些函数可以获取文件的详细状态信息，包括权限位 (st_mode)。程序可以手动检查这些权限位来判断权限，但这需要自己实现权限检查逻辑（考虑用户、组、其他用户的权限位以及 UID/GID）。access 提供了更直接、符合系统安全策略的检查方式。
open, execve 等: 这些函数在执行时也会进行权限检查。使用 access 可以提前检查，但需要注意“检查与使用之间存在竞争条件 (TOCTOU)”的问题（见下方注意事项）。
euidaccess / eaccess: 这些是 GNU 扩展函数，它们根据有效用户 ID (EUID) 和有效组 ID (EGID) 进行检查，而不是实际用户 ID。在 setuid/setgid 程序中可能更有意义。

7. 示例代码

示例 1：基本的文件存在性和权限检查

这个例子演示了如何使用 access 检查文件是否存在、是否可读、是否可写、是否可执行。

#include <unistd.h>  // access
#include <stdio.h>   // perror, printf
#include <stdlib.h>  // exit

void check_access(const char *pathname) {
    printf("\n--- Checking access for '%s' ---\n", pathname);

    // 1. 检查文件是否存在
    if (access(pathname, F_OK) == 0) {
        printf("  File exists.\n");
    } else {
        if (errno == ENOENT) {
            printf("  File does NOT exist.\n");
        } else {
            perror("  access F_OK failed for other reason");
        }
        // 如果文件不存在，后续检查无意义，但为了演示，我们仍进行
        // (实际上，通常会在这里 return)
    }

    // 2. 检查是否可读
    if (access(pathname, R_OK) == 0) {
        printf("  File is readable.\n");
    } else {
        if (errno == EACCES) {
            printf("  File exists but is NOT readable.\n");
        } else if (errno == ENOENT) {
            printf("  File does not exist (so not readable).\n");
        } else {
            perror("  access R_OK failed for other reason");
        }
    }

    // 3. 检查是否可写
    if (access(pathname, W_OK) == 0) {
        printf("  File is writable.\n");
    } else {
        if (errno == EACCES) {
            printf("  File exists but is NOT writable.\n");
        } else if (errno == ENOENT) {
            printf("  File does not exist (so not writable).\n");
        } else {
            perror("  access W_OK failed for other reason");
        }
    }

    // 4. 检查是否可执行
    if (access(pathname, X_OK) == 0) {
        printf("  File is executable.\n");
    } else {
        if (errno == EACCES) {
            printf("  File exists but is NOT executable.\n");
        } else if (errno == ENOENT) {
            printf("  File does not exist (so not executable).\n");
        } else {
            perror("  access X_OK failed for other reason");
        }
    }
}

int main(int argc, char *argv[]) {
    if (argc < 2) {
        fprintf(stderr, "Usage: %s <file1> [file2] ...\n", argv[0]);
        exit(EXIT_FAILURE);
    }

    // 对每个命令行参数进行检查
    for (int i = 1; i < argc; i++) {
        check_access(argv[i]);
    }

    return 0;
}

代码解释:

定义了一个 check_access 函数，它接受一个文件路径作为参数。
在 check_access 函数内部：
- 首先调用 access(pathname, F_OK) 检查文件是否存在。
- 然后分别调用 access(pathname, R_OK), access(pathname, W_OK), access(pathname, X_OK) 检查读、写、执行权限。
- 每次调用后都检查返回值。如果返回 0，表示检查通过；如果返回 -1，则检查 errno 来区分是“文件不存在”还是“权限不足”等其他原因。
main 函数遍历所有命令行参数，并对每个参数调用 check_access。

编译和运行:

gcc -o check_access check_access.c
touch test_file
chmod 644 test_file # rw-r--r--
chmod 755 test_script.sh # 创建一个可执行脚本用于测试
echo '#!/bin/bash\necho "Hello from script"' > test_script.sh
chmod +x test_script.sh

./check_access test_file test_script.sh /etc/passwd /nonexistent_file

示例 2：在打开文件前进行检查

这个例子展示了如何在尝试打开文件进行写入之前，先使用 access 检查文件是否存在以及是否可写，以提供更友好的错误信息。

#include <unistd.h>  // access
#include <fcntl.h>   // open, O_WRONLY, O_CREAT, O_EXCL
#include <stdio.h>   // perror, printf
#include <stdlib.h>  // exit

int safe_write_file(const char *pathname, const char *data) {
    int fd;

    // 1. 检查文件是否存在
    if (access(pathname, F_OK) == 0) {
        printf("File '%s' already exists.\n", pathname);

        // 2. 如果存在，检查是否可写
        if (access(pathname, W_OK) != 0) {
            if (errno == EACCES) {
                fprintf(stderr, "Error: Permission denied. Cannot write to '%s'.\n", pathname);
            } else {
                perror("Error checking write permission");
            }
            return -1; // Failure
        }
        printf("File exists and is writable.\n");
        // 注意：即使可写，open 时仍可能因为其他原因失败（如磁盘满）

    } else {
        // 文件不存在，检查目录是否可写 (间接判断能否创建文件)
        // 这里简化处理，实际可能需要解析路径
        printf("File '%s' does not exist. Checking if we can create it...\n", pathname);
        // 一个简单的检查：检查当前目录是否可写
        if (access(".", W_OK) != 0) {
             if (errno == EACCES) {
                 fprintf(stderr, "Error: Permission denied. Cannot create file in current directory.\n");
             } else {
                 perror("Error checking current directory write permission");
             }
             return -1;
        }
        printf("Current directory is writable. Proceeding to create file.\n");
    }

    // 3. 尝试打开文件进行写入
    // 使用 O_CREAT | O_EXCL 确保仅在文件不存在时创建，防止覆盖
    // 如果前面检查了存在性，这里可能用 O_WRONLY | O_TRUNC 更合适
    // 这里演示结合检查的逻辑
    if (access(pathname, F_OK) == 0) {
        // 文件存在，以只写和截断模式打开
        fd = open(pathname, O_WRONLY | O_TRUNC);
    } else {
        // 文件不存在，创建它
        fd = open(pathname, O_WRONLY | O_CREAT | O_EXCL, 0644);
    }

    if (fd == -1) {
        perror("open");
        return -1; // Failure
    }

    printf("File '%s' opened successfully for writing.\n", pathname);

    // 4. 写入数据 (简化)
    ssize_t data_len = 0;
    const char *p = data;
    while (*p++) data_len++;
    
    if (write(fd, data, data_len) != data_len) {
        perror("write");
        close(fd);
        return -1;
    }

    printf("Successfully wrote data to '%s'.\n", pathname);

    // 5. 关闭文件
    if (close(fd) == -1) {
        perror("close");
        return -1;
    }

    return 0; // Success
}

int main() {
    const char *filename = "output_from_safe_write.txt";
    const char *content = "This is data written by the safe_write_file function.\n";

    if (safe_write_file(filename, content) == 0) {
        printf("Operation completed successfully.\n");
    } else {
        printf("Operation failed.\n");
        exit(EXIT_FAILURE);
    }

    return 0;
}

代码解释:

定义了一个 safe_write_file 函数，它接受文件名和要写入的数据。
首先使用 access(pathname, F_OK) 检查文件是否存在。
如果文件存在，再使用 access(pathname, W_OK) 检查是否可写。
如果文件不存在，则检查当前工作目录（.）是否可写，以此判断是否有权限创建新文件（这是一个简化的检查）。
根据检查结果，决定是以 O_WRONLY | O_TRUNC（覆盖）还是 O_WRONLY | O_CREAT | O_EXCL（新建）模式打开文件。
打开文件后，执行写入操作。
最后关闭文件。
通过这种方式，可以在实际执行可能导致失败的操作（open, write）之前，提供更具体、更早的错误反馈。

重要注意事项：TOCTOU 竞争条件

使用 access 时需要特别注意一个潜在的安全问题：TOCTOU (Time-of-Check to Time-of-Use) 竞争条件。

问题: access 检查权限和后续使用文件（如 open, execve）之间存在时间差。在这段时间内，文件的权限或存在性可能被其他进程改变。
例子: 一个程序用 access("myfile", W_OK) 检查 myfile 是否可写，返回 0（表示可写）。但在程序调用 open("myfile", O_WRONLY) 之前，另一个有权限的进程删除了 myfile 并创建了一个指向敏感文件（如 /etc/passwd）的符号链接，并命名为 myfile。此时，程序的 open 调用将会打开并可能修改 /etc/passwd，这显然不是预期行为。
缓解方法:
1. 尽量避免使用 access: 最好的方法是直接尝试执行操作（如 open, execve），并根据其返回的错误码来处理权限或存在性问题。内核会在 open/execve 时进行原子性的权限检查。
2. 如果必须使用 access: 要意识到这种风险，并确保在权限检查和文件使用之间的时间窗口尽可能短。在高安全性要求的程序中，应避免依赖 access 的结果来做关键决策。

总结:

access 函数提供了一种方便的方式来检查文件权限和存在性。虽然它有其用途，但在涉及安全性的场景中，直接尝试操作并处理错误通常是更安全、更可靠的做法。理解其工作原理和潜在的 TOCTOU 问题是正确使用它的关键。

access系统调用及示例

Linux开源软件路线图

发表在 linux文章 | 留下评论

accept系统调用及示例

发表于2025-08-03由麦芽爸

我们继续学习 Linux 系统编程中的重要函数。这次我们介绍 accept 函数，它是 TCP 服务器用来接受客户端连接请求的核心系统调用。

1. 函数介绍

accept 是一个 Linux 系统调用，专门用于TCP 服务器（使用 SOCK_STREAM 套接字）。它的主要功能是从监听套接字（通过 listen 设置的套接字）的未决连接队列（pending connection queue）中取出第一个连接请求，并为这个新连接创建一个全新的、独立的套接字文件描述符。

你可以把 accept 想象成总机接线员：

有很多电话（客户端连接请求）打进来，响铃并排队在总机（监听套接字）那里。
接线员（accept 调用）拿起一个响铃的电话。
接线员把这条线路接到一个新的、专用的电话线（新的套接字文件描述符）上。
接线员可以继续去接下一个电话（下一次 accept 调用），而第一个通话（与第一个客户端的通信）则通过那条专用线路进行，互不干扰。

这个新创建的套接字文件描述符专门用于与那一个特定的客户端进行双向数据通信。原始的监听套接字则继续保持监听状态，等待并接受更多的连接请求。

2. 函数原型

#include <sys/socket.h> // 必需

// 标准形式
int accept(int sockfd, struct sockaddr *addr, socklen_t *addrlen);

// 带有标志的变体 (Linux 2.6.28+)
int accept4(int sockfd, struct sockaddr *addr, socklen_t *addrlen, int flags);

3. 功能

从队列中取出连接: 从监听套接字 sockfd 维护的未决连接队列中提取第一个已完成或正在完成的连接请求。
创建新套接字: 为这个新连接创建一个新的、非监听状态的套接字文件描述符。
返回通信端点: 返回这个新的套接字文件描述符，服务器程序可以使用它来与特定的客户端进行数据交换（read/write）。
获取客户端信息: 如果 addr 和 addrlen 参数不为 NULL，则将连接到服务器的客户端的地址信息（IP 地址和端口号）填充到 addr 指向的缓冲区中。

4. 参数

int sockfd: 这是监听套接字的文件描述符。它必须是：
1. 通过 socket() 成功创建的。
2. 通过 bind() 绑定了本地地址（IP 和端口）的。
3. 通过 listen() 进入监听状态的。
struct sockaddr *addr: 这是一个指向套接字地址结构的指针，用于接收客户端的地址信息。
- 如果你不关心客户端是谁，可以传入 NULL。
- 如果传入非 NULL 值，则它通常指向一个 struct sockaddr_in (IPv4) 或 struct sockaddr_in6 (IPv6) 类型的变量。
- 该结构体在 accept 返回后会被填入客户端的地址信息。
socklen_t *addrlen: 这是一个指向 socklen_t 类型变量的指针。
- 输入: 在调用 accept 时，这个变量必须被初始化为 addr 指向的缓冲区的大小（以字节为单位）。例如，如果 addr 指向 struct sockaddr_in，则 *addrlen 应初始化为 sizeof(struct sockaddr_in)。
- 输出: accept 返回时，这个变量会被更新为实际存储在 addr 中的地址结构的大小。这对于处理不同大小的地址结构（如 IPv4 和 IPv6）很有用。
int flags (accept4 特有): 这个参数允许在创建新套接字时设置一些属性，类似于 socket() 的 type 参数可以使用的修饰符。
- SOCK_NONBLOCK: 将新创建的套接字设置为非阻塞模式。
- SOCK_CLOEXEC: 在调用 exec() 时自动关闭该套接字。

5. 返回值

成功时: 返回一个新的、非负的整数，即为新连接创建的套接字文件描述符。服务器应使用这个返回的文件描述符与客户端进行后续的数据通信。
失败时: 返回 -1，并设置全局变量 errno 来指示具体的错误原因（例如 EAGAIN 或 EWOULDBLOCK 套接字被标记为非阻塞且没有未决连接，EBADF sockfd 无效，EINVAL 套接字未监听，EMFILE 进程打开的文件描述符已达上限等）。

阻塞与非阻塞:

阻塞套接字（默认）：如果监听队列中没有待处理的连接，accept 调用会阻塞（挂起）当前进程，直到有新的连接到达。
非阻塞套接字（如果监听套接字被设置为非阻塞）：如果监听队列中没有待处理的连接，accept 会立即返回 -1，并将 errno 设置为 EAGAIN 或 EWOULDBLOCK。

6. 相似函数，或关联函数

socket: 用于创建原始的监听套接字。
bind: 将监听套接字绑定到本地地址。
listen: 使套接字进入监听状态，开始接收连接请求。
connect: 客户端使用此函数向服务器发起连接。
close: 服务器在与客户端通信结束后，需要关闭 accept 返回的那个套接字文件描述符。通常也需要关闭原始的监听套接字（在服务器退出时）。
fork / 多线程: 服务器通常在 accept 之后调用 fork 或创建新线程来处理与客户端的通信，以便主服务器进程可以继续调用 accept 接受新的连接。

7. 示例代码

示例 1：基本的 TCP 服务器 `accept` 循环

这个例子演示了一个典型的、顺序处理的 TCP 服务器如何使用 accept 循环来接受和处理客户端连接。

// sequential_tcp_server.c
#include <sys/socket.h>
#include <netinet/in.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <arpa/inet.h> // inet_ntoa (注意：不是线程安全的)

#define PORT 8080
#define BACKLOG 10

void handle_client(int client_fd, struct sockaddr_in *client_addr) {
    char buffer[1024];
    ssize_t bytes_read;

    printf("Handling client %s:%d (fd: %d)\n",
           inet_ntoa(client_addr->sin_addr), ntohs(client_addr->sin_port), client_fd);

    // 读取客户端发送的数据
    while ((bytes_read = read(client_fd, buffer, sizeof(buffer) - 1)) > 0) {
        buffer[bytes_read] = '\0'; // 确保字符串结束
        printf("Received from client: %s", buffer); // buffer 可能已包含 \n

        // 将收到的数据回显给客户端
        if (write(client_fd, buffer, bytes_read) != bytes_read) {
            perror("write to client failed");
            break;
        }
    }

    if (bytes_read < 0) {
        perror("read from client failed");
    } else {
        printf("Client %s:%d disconnected (fd: %d)\n",
               inet_ntoa(client_addr->sin_addr), ntohs(client_addr->sin_port), client_fd);
    }

    close(client_fd); // 关闭与该客户端的连接
}

int main() {
    int server_fd, client_fd;
    struct sockaddr_in address, client_address;
    socklen_t client_addr_len = sizeof(client_address);
    int opt = 1;

    // 1. 创建套接字
    if ((server_fd = socket(AF_INET, SOCK_STREAM, 0)) == 0) {
        perror("socket failed");
        exit(EXIT_FAILURE);
    }

    // 2. 设置套接字选项
    if (setsockopt(server_fd, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt))) {
        perror("setsockopt failed");
        close(server_fd);
        exit(EXIT_FAILURE);
    }

    // 3. 配置服务器地址
    address.sin_family = AF_INET;
    address.sin_addr.s_addr = INADDR_ANY;
    address.sin_port = htons(PORT);

    // 4. 绑定套接字
    if (bind(server_fd, (struct sockaddr *)&address, sizeof(address)) < 0) {
        perror("bind failed");
        close(server_fd);
        exit(EXIT_FAILURE);
    }

    // 5. 监听连接
    if (listen(server_fd, BACKLOG) < 0) {
        perror("listen failed");
        close(server_fd);
        exit(EXIT_FAILURE);
    }

    printf("Server listening on port %d\n", PORT);

    // 6. 主循环：接受并处理连接
    while (1) {
        printf("Waiting for a connection...\n");

        // 7. 接受连接 (阻塞调用)
        client_fd = accept(server_fd, (struct sockaddr *)&client_address, &client_addr_len);
        if (client_fd < 0) {
            perror("accept failed");
            continue; // 或 exit(EXIT_FAILURE);
        }

        printf("New connection accepted.\n");

        // 8. 处理客户端 (顺序处理，同一时间只能处理一个)
        handle_client(client_fd, &client_address);

        // 处理完一个客户端后，循环继续 accept 下一个
    }

    // 注意：在实际程序中，需要有退出机制和清理代码
    // close(server_fd); // 不会执行到这里
    return 0;
}

代码解释:

创建、绑定、监听服务器套接字，这部分与之前 socket, bind, listen 的例子相同。
进入一个无限的 while(1) 循环。
在循环内部，调用 accept(server_fd, (struct sockaddr *)&client_address, &client_addr_len)。
- server_fd: 监听套接字。
- &client_address: 指向 sockaddr_in 结构的指针，用于接收客户端地址。
- &client_addr_len: 指向 socklen_t 变量的指针，该变量在调用前被初始化为 sizeof(client_address)。
accept 是一个阻塞调用。如果没有客户端连接，程序会在此处挂起等待。
当有客户端连接到达时，accept 返回一个新的文件描述符 client_fd。
调用 handle_client 函数处理与该客户端的通信。这个函数会读取客户端数据并回显回去。
handle_client 函数结束时（客户端断开或出错），会调用 close(client_fd) 关闭这个连接。
主循环继续，再次调用 accept 等待下一个客户端。

缺点: 这种顺序处理的方式效率很低。服务器在处理一个客户端时，无法接受其他客户端的连接，直到当前客户端处理完毕。

示例 2：并发 TCP 服务器 (使用 `fork`)

这个例子演示了如何使用 fork 创建子进程来并发处理多个客户端连接。

// concurrent_tcp_server.c
#include <sys/socket.h>
#include <netinet/in.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <arpa/inet.h>
#include <sys/wait.h> // waitpid

#define PORT 8080
#define BACKLOG 10

void handle_client(int client_fd, struct sockaddr_in *client_addr) {
    char buffer[1024];
    ssize_t bytes_read;

    printf("Child %d: Handling client %s:%d (fd: %d)\n",
           getpid(), inet_ntoa(client_addr->sin_addr), ntohs(client_addr->sin_port), client_fd);

    while ((bytes_read = read(client_fd, buffer, sizeof(buffer) - 1)) > 0) {
        buffer[bytes_read] = '\0';
        printf("Child %d: Received from client: %s", getpid(), buffer);
        if (write(client_fd, buffer, bytes_read) != bytes_read) {
            perror("Child: write to client failed");
            break;
        }
    }

    if (bytes_read < 0) {
        perror("Child: read from client failed");
    } else {
        printf("Child %d: Client %s:%d disconnected.\n",
               getpid(), inet_ntoa(client_addr->sin_addr), ntohs(client_addr->sin_port));
    }

    close(client_fd);
    printf("Child %d: Connection closed. Exiting.\n", getpid());
    _exit(EXIT_SUCCESS); // 子进程使用 _exit 退出
}

int main() {
    int server_fd, client_fd;
    struct sockaddr_in address, client_address;
    socklen_t client_addr_len = sizeof(client_address);
    int opt = 1;
    pid_t pid;

    if ((server_fd = socket(AF_INET, SOCK_STREAM, 0)) == 0) {
        perror("socket failed");
        exit(EXIT_FAILURE);
    }

    if (setsockopt(server_fd, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt))) {
        perror("setsockopt failed");
        close(server_fd);
        exit(EXIT_FAILURE);
    }

    address.sin_family = AF_INET;
    address.sin_addr.s_addr = INADDR_ANY;
    address.sin_port = htons(PORT);

    if (bind(server_fd, (struct sockaddr *)&address, sizeof(address)) < 0) {
        perror("bind failed");
        close(server_fd);
        exit(EXIT_FAILURE);
    }

    if (listen(server_fd, BACKLOG) < 0) {
        perror("listen failed");
        close(server_fd);
        exit(EXIT_FAILURE);
    }

    printf("Concurrent Server (PID: %d) listening on port %d\n", getpid(), PORT);

    while (1) {
        client_fd = accept(server_fd, (struct sockaddr *)&client_address, &client_addr_len);
        if (client_fd < 0) {
            perror("accept failed");
            continue;
        }

        printf("Main process (PID: %d): New connection accepted.\n", getpid());

        // Fork a new process to handle the client
        pid = fork();
        if (pid < 0) {
            perror("fork failed");
            close(client_fd); // Important: close the client fd on fork failure
        } else if (pid == 0) {
            // --- Child process ---
            close(server_fd); // Child doesn't need the listening socket
            handle_client(client_fd, &client_address);
            // handle_client calls close(client_fd) and _exit()
            // so nothing more needed here
        } else {
            // --- Parent process ---
            close(client_fd); // Parent doesn't need the client-specific socket
            printf("Main process (PID: %d): Forked child process (PID: %d) to handle client.\n", getpid(), pid);

            // Optional: Clean up any finished child processes (non-blocking)
            // This prevents zombie processes if children finish quickly
            pid_t wpid;
            int status;
            while ((wpid = waitpid(-1, &status, WNOHANG)) > 0) {
                printf("Main process (PID: %d): Reaped child process (PID: %d)\n", getpid(), wpid);
            }
        }
    }

    close(server_fd);
    return 0;
}

代码解释:

服务器设置部分与顺序服务器相同。
在 accept 成功返回后，立即调用 fork()。
fork 返回后：
- 在子进程 (pid == 0)：
  - 关闭不需要的监听套接字 server_fd。
  - 调用 handle_client(client_fd, ...) 处理客户端。
  - handle_client 处理完毕后会关闭 client_fd 并调用 _exit() 退出。
- 在父进程 (pid > 0)：
  - 关闭不需要的客户端套接字 client_fd（因为子进程在处理它）。
  - 打印信息，表明已派生子进程处理客户端。
  - 可选地调用 waitpid(-1, &status, WNOHANG) 来非阻塞地清理已经结束的子进程（回收僵尸进程）。如果省略这一步，结束的子进程会变成僵尸进程，直到父进程退出。
父进程继续循环，调用 accept 等待下一个客户端连接。

示例 3：使用 `accept4` 设置非阻塞客户端套接字

这个例子演示了如何使用 accept4 函数在创建新连接套接字的同时就将其设置为非阻塞模式。

// accept4_example.c
#define _GNU_SOURCE // 必须定义以使用 accept4
#include <sys/socket.h>
#include <netinet/in.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <fcntl.h> // F_GETFL, F_SETFL, O_NONBLOCK

#define PORT 8080
#define BACKLOG 10

int main() {
    int server_fd, client_fd;
    struct sockaddr_in address, client_address;
    socklen_t client_addr_len = sizeof(client_address);
    int opt = 1;
    int flags;

    if ((server_fd = socket(AF_INET, SOCK_STREAM, 0)) == 0) {
        perror("socket failed");
        exit(EXIT_FAILURE);
    }

    if (setsockopt(server_fd, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt))) {
        perror("setsockopt failed");
        close(server_fd);
        exit(EXIT_FAILURE);
    }

    address.sin_family = AF_INET;
    address.sin_addr.s_addr = INADDR_ANY;
    address.sin_port = htons(PORT);

    if (bind(server_fd, (struct sockaddr *)&address, sizeof(address)) < 0) {
        perror("bind failed");
        close(server_fd);
        exit(EXIT_FAILURE);
    }

    if (listen(server_fd, BACKLOG) < 0) {
        perror("listen failed");
        close(server_fd);
        exit(EXIT_FAILURE);
    }

    printf("Server listening on port %d. Accepting connections...\n", PORT);

    while (1) {
        printf("Waiting for a connection...\n");

        // 使用 accept4 直接创建非阻塞的客户端套接字
        client_fd = accept4(server_fd, (struct sockaddr *)&client_address, &client_addr_len, SOCK_NONBLOCK);

        if (client_fd < 0) {
            perror("accept4 failed");
            continue;
        }

        printf("New connection accepted (fd: %d). Checking if it's non-blocking...\n", client_fd);

        // 验证套接字是否确实是非阻塞的
        flags = fcntl(client_fd, F_GETFL, 0);
        if (flags == -1) {
            perror("fcntl F_GETFL failed");
            close(client_fd);
            continue;
        }

        if (flags & O_NONBLOCK) {
            printf("Confirmed: Client socket (fd: %d) is non-blocking.\n", client_fd);
        } else {
            printf("Warning: Client socket (fd: %d) is NOT non-blocking.\n", client_fd);
        }

        // --- 在这里，你可以对非阻塞的 client_fd 进行 read/write/select/poll 操作 ---
        // 例如，将其添加到 epoll 或 select 的监视集合中

        // 为了演示，我们简单地关闭它
        printf("Closing client socket (fd: %d).\n", client_fd);
        close(client_fd);
    }

    close(server_fd);
    return 0;
}

代码解释:

服务器设置部分与之前相同。
在调用 accept4 时，传入了 SOCK_NONBLOCK 标志作为第四个参数。
如果 accept4 成功，返回的 client_fd 就已经被设置为非阻塞模式。
代码通过 fcntl(client_fd, F_GETFL, 0) 获取套接字标志，并检查 O_NONBLOCK 位是否被设置，以验证 accept4 的效果。
在实际应用中，得到非阻塞的 client_fd 后，通常会将其加入到 select、poll 或 epoll 的监视集合中，以便高效地管理多个并发连接。

重要提示与注意事项:

返回新的文件描述符: accept 返回的文件描述符与原始监听套接字 sockfd 完全不同。原始套接字继续用于监听，新套接字用于与特定客户端通信。
必须关闭: 服务器在与客户端通信结束后，必须调用 close() 关闭 accept 返回的那个文件描述符，以释放资源。
获取客户端地址: 利用 addr 和 addrlen 参数获取客户端的 IP 和端口对于日志记录、访问控制、调试等非常有用。
并发处理: 对于需要同时处理多个客户端的服务器，必须使用 fork、多线程或 I/O 多路复用（select/poll/epoll）等技术。简单的顺序处理无法满足实际需求。
错误处理: 始终检查 accept 的返回值。在繁忙的服务器上，非阻塞 accept 可能会因为没有连接而返回 EAGAIN。
accept4 的优势: accept4 可以在原子操作中设置新套接字的属性，避免了先 accept 再 fcntl 的两步操作，理论上更高效且没有竞态条件。

总结:

accept 是 TCP 服务器模型的核心。它使得服务器能够从监听状态进入与客户端的实际数据交换状态。理解其阻塞/非阻塞行为、返回值含义以及如何与并发处理技术（如 fork）结合使用，是构建健壮网络服务器的基础。accept4 则为需要精细控制新连接套接字属性的场景提供了便利。

发表在 linux文章 | 留下评论

accept4系统调用及示例

发表于2025-08-02由麦芽爸

1. 函数介绍

在网络编程中，服务器程序通常需要监听某个端口，等待客户端的连接请求。当一个客户端尝试连接到服务器时，内核会将这个连接请求放入一个等待队列中。

服务器程序需要一种方法从这个队列中取出（“接受”）一个连接请求，并为这个连接创建一个新的套接字（socket），通过这个新套接字与客户端进行数据通信。

accept 系统调用就是用来完成这个“接受连接”的任务的。它会阻塞（等待）直到队列中有新的连接请求，然后返回一个新的、已连接的套接字文件描述符。

accept4 是 accept 的一个扩展版本。它在功能上与 accept 几乎相同，但增加了一个非常实用的特性：允许你在接受连接的同时，为新创建的套接字文件描述符设置一些标志（flags）。

最常见的用途是设置 SOCK_CLOEXEC 标志，这可以自动防止新套接字在执行 exec() 系列函数时被意外地传递给新程序，从而提高了程序的安全性和健壮性。

简单来说，accept4 就是 accept 的“增强版”，它让你在接到电话（连接）的同时，可以立刻给电话线（套接字）加上一些安全或便利的设置。

2. 函数原型

#define _GNU_SOURCE // 必须定义这个宏才能使用 accept4
#include <sys/socket.h> // 包含 accept4 函数声明

// accept4 是 Linux 特有的系统调用
int accept4(int sockfd, struct sockaddr *addr, socklen_t *addrlen, int flags);

注意：accept4 是 Linux 特有的。在可移植的 POSIX 代码中，通常使用标准的 accept，然后手动调用 fcntl 来设置标志。

3. 功能

从监听套接字 sockfd 的已完成连接队列（completed connection queue）中取出第一个连接请求，为这个连接创建一个新的、已连接的套接字，并根据 flags 参数设置该新套接字的属性。

4. 参数

sockfd:
- int 类型。
- 一个监听套接字的文件描述符。这个套接字必须已经通过 bind() 绑定了本地地址和端口，并通过 listen() 开始监听连接请求。
addr:
- struct sockaddr * 类型。
- 一个指向 sockaddr 结构体（或其特定协议的变体，如 sockaddr_in for IPv4）的指针。当 accept4 成功返回时，这个结构体将被填充为连接到服务器的客户端的地址信息（IP 地址和端口号）。
- 如果你不关心客户端的地址信息，可以传 NULL。
addrlen:
- socklen_t * 类型。
- 这是一个输入/输出参数。
- 输入时：它应该指向一个 socklen_t 变量，该变量的值是 addr 指向的缓冲区的大小。
- 输出时：accept4 成功返回后，这个 socklen_t 变量的值将被修改为实际存储在 addr 中的地址结构的大小。
- 如果 addr 是 NULL，addrlen 也必须是 NULL。
flags:
- int 类型。
- 一个位掩码，用于设置新创建的已连接套接字的属性。可以是以下值的按位或 (|) 组合：
  - SOCK_NONBLOCK: 为新套接字设置非阻塞模式。这样，后续在这个新套接字上的 I/O 操作（如 read, write）如果无法立即完成，不会阻塞，而是返回错误 EAGAIN 或 EWOULDBLOCK。
  - SOCK_CLOEXEC: 为新套接字设置执行时关闭（Close-on-Exec）标志 (FD_CLOEXEC)。这确保了当程序调用 exec() 系列函数执行新程序时，这个新套接字会被自动关闭，防止它被新程序意外继承。这是一个重要的安全和资源管理特性。

5. 返回值

成功: 返回一个新的、非负的文件描述符，它代表了与客户端通信的已连接套接字。服务器应该使用这个新的文件描述符与客户端进行 read/write 等操作。
失败: 返回 -1，并设置全局变量 errno 来指示具体的错误原因。

6. 错误码 (`errno`)

accept4 可能返回的错误码与 accept 基本相同：

EAGAIN 或 EWOULDBLOCK: (对于非阻塞套接字) 监听队列中当前没有已完成的连接。
EBADF: sockfd 不是有效的文件描述符。
ECONNABORTED: 连接已被客户端中止。
EFAULT: addr 参数指向了进程无法访问的内存地址。
EINTR: 系统调用被信号中断。
EINVAL: 套接字没有处于监听状态，或者 flags 参数包含无效标志。
EMFILE: 进程已打开的文件描述符数量达到上限 (RLIMIT_NOFILE)。
ENFILE: 系统已打开的文件描述符数量达到上限。
ENOMEM: 内核内存不足。
ENOBUFS: 网络子系统内存不足。
ENOTSOCK: sockfd 不是一个套接字。
EOPNOTSUPP: 套接字类型不支持 accept 操作（例如，不是 SOCK_STREAM）。
EPERM: 防火墙规则禁止连接。

7. 相似函数或关联函数

accept: 标准的接受连接函数。功能与 accept4 相同，但不支持 flags 参数。通常在 accept 返回后，需要再调用 fcntl 来设置 O_NONBLOCK 或 FD_CLOEXEC。// 使用 accept + fcntl 的等效操作 new_fd = accept(sockfd, addr, addrlen); if (new_fd != -1) { // 设置非阻塞和 close-on-exec int flags = fcntl(new_fd, F_GETFL, 0); fcntl(new_fd, F_SETFL, flags | O_NONBLOCK); flags = fcntl(new_fd, F_GETFD, 0); fcntl(new_fd, F_SETFD, flags | FD_CLOEXEC); }
listen: 将套接字置于监听状态，使其能够接收连接请求。
bind: 将套接字与本地地址和端口绑定。
socket: 创建一个套接字。
read / write: 通过已连接的套接字与客户端通信。
close: 关闭套接字。
fcntl: 用于获取和设置文件描述符标志，包括 O_NONBLOCK 和 FD_CLOEXEC。

8. 示例代码

下面的示例演示了一个简单的 TCP 服务器，它使用 accept4 来接受客户端连接，并利用 SOCK_CLOEXEC 和 SOCK_NONBLOCK 标志。

#define _GNU_SOURCE // 必须定义以使用 accept4
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <unistd.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <errno.h>
#include <fcntl.h> // 包含 O_NONBLOCK 等

#define PORT 8080
#define BACKLOG 10 // 监听队列的最大长度

void handle_client(int client_fd, const struct sockaddr_in *client_addr) {
    char buffer[1024];
    ssize_t bytes_read;

    printf("Handling client %s:%d on fd %d\n",
           inet_ntoa(client_addr->sin_addr), ntohs(client_addr->sin_port), client_fd);

    // 读取客户端发送的数据
    while ((bytes_read = read(client_fd, buffer, sizeof(buffer) - 1)) > 0) {
        buffer[bytes_read] = '\0';
        printf("Received from client: %s", buffer);

        // 将数据回显给客户端
        if (write(client_fd, buffer, bytes_read) != bytes_read) {
            perror("write");
            break;
        }
    }

    if (bytes_read == 0) {
        printf("Client disconnected.\n");
    } else if (bytes_read == -1) {
        if (errno == EAGAIN || errno == EWOULDBLOCK) {
            printf("No data available to read (non-blocking).\n");
        } else {
            perror("read");
        }
    }

    close(client_fd); // 关闭与该客户端的连接
    printf("Closed connection to client.\n");
}

int main() {
    int server_fd, client_fd;
    struct sockaddr_in server_addr, client_addr;
    socklen_t client_len = sizeof(client_addr);

    printf("--- Simple TCP Server using accept4 ---\n");

    // 1. 创建 socket
    // AF_INET: IPv4
    // SOCK_STREAM: TCP
    // 0: 使用默认协议 (TCP)
    server_fd = socket(AF_INET, SOCK_STREAM | SOCK_CLOEXEC, 0);
    if (server_fd == -1) {
        perror("socket");
        exit(EXIT_FAILURE);
    }
    printf("Created server socket: %d\n", server_fd);

    // 2. 准备服务器地址结构
    memset(&server_addr, 0, sizeof(server_addr));
    server_addr.sin_family = AF_INET;
    server_addr.sin_addr.s_addr = INADDR_ANY; // 绑定到所有本地接口
    server_addr.sin_port = htons(PORT);       // 绑定到指定端口 (网络字节序)

    // 3. 绑定 socket 到地址和端口
    if (bind(server_fd, (struct sockaddr *)&server_addr, sizeof(server_addr)) == -1) {
        perror("bind");
        close(server_fd);
        exit(EXIT_FAILURE);
    }
    printf("Bound server socket to port %d\n", PORT);

    // 4. 开始监听连接
    if (listen(server_fd, BACKLOG) == -1) {
        perror("listen");
        close(server_fd);
        exit(EXIT_FAILURE);
    }
    printf("Listening for connections...\n");

    printf("Server is running. Connect to it using e.g., 'telnet 127.0.0.1 %d' or 'nc 127.0.0.1 %d'\n", PORT, PORT);
    printf("Press Ctrl+C to stop the server.\n");

    // 5. 主循环：接受连接
    while (1) {
        // 6. 使用 accept4 接受连接
        // SOCK_CLOEXEC: 自动设置 close-on-exec 标志
        // SOCK_NONBLOCK: 自动设置非阻塞模式
        client_fd = accept4(server_fd, (struct sockaddr *)&client_addr, &client_len, SOCK_CLOEXEC | SOCK_NONBLOCK);

        if (client_fd == -1) {
            if (errno == EAGAIN || errno == EWOULDBLOCK) {
                // 对于阻塞的监听套接字，这不太可能发生
                // 但对于非阻塞的监听套接字，队列可能为空
                printf("No pending connections (EAGAIN/EWOULDBLOCK).\n");
                usleep(100000); // 等待 0.1 秒再试
                continue;
            } else if (errno == EINTR) {
                // 被信号中断，通常继续循环
                printf("accept4 interrupted by signal, continuing...\n");
                continue;
            } else {
                perror("accept4");
                // 对于其他严重错误，可以选择关闭服务器
                // close(server_fd);
                // exit(EXIT_FAILURE);
                continue; // 或者简单地继续尝试
            }
        }

        printf("\nAccepted new connection. Client fd: %d\n", client_fd);
        printf("Client address: %s:%d\n", inet_ntoa(client_addr.sin_addr), ntohs(client_addr.sin_port));

        // 7. 处理客户端 (在这个简单示例中，我们直接处理)
        // 注意：在实际的高性能服务器中，这里通常会 fork() 或使用线程/事件循环
        handle_client(client_fd, &client_addr);
    }

    // 8. 关闭服务器套接字 (实际上不会执行到这里)
    close(server_fd);
    printf("Server socket closed.\n");
    return 0;
}

9. 编译和运行

# 假设代码保存在 tcp_server_accept4.c 中
# 必须定义 _GNU_SOURCE
gcc -D_GNU_SOURCE -o tcp_server_accept4 tcp_server_accept4.c

# 在一个终端运行服务器
./tcp_server_accept4

# 在另一个终端使用 telnet 或 nc 连接服务器
telnet 127.0.0.1 8080
# 或者
nc 127.0.0.1 8080

# 在 telnet/nc 窗口中输入一些文字，按回车，会看到服务器回显
# 输入 Ctrl+] 然后 quit (telnet) 或 Ctrl+C (nc) 来断开连接

10. 预期输出

服务器终端:

--- Simple TCP Server using accept4 ---
Created server socket: 3
Bound server socket to port 8080
Listening for connections...
Server is running. Connect to it using e.g., 'telnet 127.0.0.1 8080' or 'nc 127.0.0.1 8080'
Press Ctrl+C to stop the server.

Accepted new connection. Client fd: 4
Client address: 127.0.0.1:54321
Handling client 127.0.0.1:54321 on fd 4
Received from client: Hello, Server!

Client disconnected.
Closed connection to client.

客户端终端 (telnet 或 nc):

Trying 127.0.0.1...
Connected to 127.0.0.1.
Escape character is '^]'.
Hello, Server!
Hello, Server! # 服务器回显
^]
telnet> quit
Connection closed.

11. 总结

accept4 是一个在 Linux 上非常有用的系统调用，特别适合于需要高性能和安全性的网络服务器程序。

核心优势：它将“接受连接”和“设置套接字属性”这两个操作原子化地结合在一起，避免了使用 accept + fcntl 时可能存在的竞态条件（即在 accept 和 fcntl 之间，新套接字可能被意外使用）。
SOCK_CLOEXEC：自动设置 close-on-exec 标志，防止套接字被 exec() 继承，提高安全性。
SOCK_NONBLOCK：自动设置非阻塞模式，使得在新套接字上的 I/O 操作不会阻塞。
与 accept 的关系：accept4(sockfd, addr, addrlen, 0) 在功能上等同于 accept(sockfd, addr, addrlen)。
可移植性：accept4 是 Linux 特有的。如果需要编写可移植的代码，应使用 accept 并手动调用 fcntl。

对于 Linux 系统编程新手来说，掌握 accept4 及其标志的使用，是编写健壮、高效网络服务的重要一步。

发表在 linux文章 | 留下评论

Linux高级I/O系统调用详解

发表于2025-08-02由麦芽爸

1. 概述

这些是 Linux 系统中一组高级 I/O 操作系统调用，它们提供了比传统 read/write 更强大和灵活的功能。每种调用都有其特定的用途和优势。

2. 系统调用详细介绍

2.1 pread/pwrite – 位置指定读写

#include <unistd.h>

ssize_t pread(int fd, void *buf, size_t count, off_t offset);
ssize_t pwrite(int fd, const void *buf, size_t count, off_t offset);

功能：

pread: 从指定位置读取数据，不改变文件指针位置
pwrite: 向指定位置写入数据，不改变文件指针位置

优势：

原子操作（读/写 + 位置指定）
线程安全
不影响其他读写操作

示例：

#include <stdio.h>
#include <unistd.h>
#include <fcntl.h>
#include <string.h>

int main() {
    int fd = open("test.txt", O_CREAT | O_RDWR, 0644);
    
    // 写入数据
    const char *data = "Hello World!";
    pwrite(fd, data, strlen(data), 0);
    
    // 从指定位置读取
    char buffer[20];
    ssize_t bytes_read = pread(fd, buffer, 10, 0);
    buffer[bytes_read] = '\0';
    printf("读取内容: %s\n", buffer);
    
    close(fd);
    return 0;
}

2.2 preadv/pwritev – 分散/聚集 I/O

#include <sys/uio.h>

ssize_t preadv(int fd, const struct iovec *iov, int iovcnt, off_t offset);
ssize_t pwritev(int fd, const struct iovec *iov, int iovcnt, off_t offset);

功能：

preadv: 从指定位置读取到多个缓冲区（分散读取）
pwritev: 从多个缓冲区写入到指定位置（聚集写入）

iov 结构体：

struct iovec {
    void  *iov_base;    // 缓冲区地址
    size_t iov_len;     // 缓冲区长度
};

示例：

#include <stdio.h>
#include <sys/uio.h>
#include <fcntl.h>
#include <string.h>

int main() {
    int fd = open("scatter_gather.txt", O_CREAT | O_RDWR, 0644);
    
    // 准备分散写入数据
    struct iovec iov_write[3];
    char *data1 = "First part ";
    char *data2 = "Second part ";
    char *data3 = "Third part\n";
    
    iov_write[0].iov_base = data1;
    iov_write[0].iov_len = strlen(data1);
    iov_write[1].iov_base = data2;
    iov_write[1].iov_len = strlen(data2);
    iov_write[2].iov_base = data3;
    iov_write[2].iov_len = strlen(data3);
    
    // 分散写入
    pwritev(fd, iov_write, 3, 0);
    
    // 分散读取
    struct iovec iov_read[3];
    char buf1[20], buf2[20], buf3[20];
    
    iov_read[0].iov_base = buf1;
    iov_read[0].iov_len = sizeof(buf1) - 1;
    iov_read[1].iov_base = buf2;
    iov_read[1].iov_len = sizeof(buf2) - 1;
    iov_read[2].iov_base = buf3;
    iov_read[2].iov_len = sizeof(buf3) - 1;
    
    ssize_t total_bytes = preadv(fd, iov_read, 3, 0);
    printf("总共读取 %zd 字节\n", total_bytes);
    
    buf1[iov_read[0].iov_len] = '\0';
    buf2[iov_read[1].iov_len] = '\0';
    buf3[iov_read[2].iov_len] = '\0';
    
    printf("缓冲区1: %s\n", buf1);
    printf("缓冲区2: %s\n", buf2);
    printf("缓冲区3: %s\n", buf3);
    
    close(fd);
    return 0;
}

2.3 preadv2/pwritev2 – 增强版分散/聚集 I/O

#define _GNU_SOURCE
#include <sys/uio.h>

ssize_t preadv2(int fd, const struct iovec *iov, int iovcnt, 
                off_t offset, int flags);
ssize_t pwritev2(int fd, const struct iovec *iov, int iovcnt, 
                 off_t offset, int flags);

功能：

在 preadv/pwritev 基础上增加标志控制
支持更细粒度的 I/O 控制

支持的标志：

RWF_HIPRI: 高优先级 I/O
RWF_DSYNC: 数据同步写入
RWF_SYNC: 同步写入
RWF_NOWAIT: 非阻塞操作
RWF_APPEND: 追加模式

示例：

#define _GNU_SOURCE
#include <stdio.h>
#include <sys/uio.h>
#include <fcntl.h>
#include <string.h>
#include <errno.h>

int main() {
    int fd = open("enhanced_io.txt", O_CREAT | O_RDWR, 0644);
    if (fd == -1) {
        perror("open");
        return 1;
    }
    
    // 准备数据
    struct iovec iov[2];
    char *data1 = "Enhanced ";
    char *data2 = "I/O operation\n";
    
    iov[0].iov_base = data1;
    iov[0].iov_len = strlen(data1);
    iov[1].iov_base = data2;
    iov[1].iov_len = strlen(data2);
    
    // 使用增强版写入（带标志）
    ssize_t bytes_written = pwritev2(fd, iov, 2, 0, RWF_SYNC);
    if (bytes_written == -1) {
        if (errno == ENOSYS) {
            printf("系统不支持 pwritev2，回退到 pwritev\n");
            bytes_written = pwritev(fd, iov, 2, 0);
        } else {
            perror("pwritev2");
            close(fd);
            return 1;
        }
    }
    
    printf("写入 %zd 字节\n", bytes_written);
    
    close(fd);
    return 0;
}

2.4 prlimit64 – 资源限制控制

#include <sys/resource.h>

int prlimit64(pid_t pid, int resource, 
              const struct rlimit64 *new_limit, 
              struct rlimit64 *old_limit);

功能：

获取和设置进程资源限制
支持 64 位资源限制值
可以操作其他进程的资源限制

常用资源类型：

RLIMIT_AS: 虚拟内存地址空间限制
RLIMIT_CORE: 核心转储文件大小限制
RLIMIT_CPU: CPU 时间限制
RLIMIT_DATA: 数据段大小限制
RLIMIT_FSIZE: 文件大小限制
RLIMIT_NOFILE: 打开文件描述符数量限制
RLIMIT_NPROC: 进程数量限制
RLIMIT_STACK: 栈大小限制

示例：

#include <stdio.h>
#include <sys/resource.h>
#include <errno.h>

int main() {
    struct rlimit64 limit;
    
    // 获取当前进程的文件大小限制
    if (prlimit64(0, RLIMIT_FSIZE, NULL, &limit) == 0) {
        printf("文件大小限制:\n");
        if (limit.rlim_cur == RLIM64_INFINITY) {
            printf("  软限制: 无限制\n");
        } else {
            printf("  软限制: %lld 字节\n", (long long)limit.rlim_cur);
        }
        if (limit.rlim_max == RLIM64_INFINITY) {
            printf("  硬限制: 无限制\n");
        } else {
            printf("  硬限制: %lld 字节\n", (long long)limit.rlim_max);
        }
    }
    
    // 获取打开文件数限制
    if (prlimit64(0, RLIMIT_NOFILE, NULL, &limit) == 0) {
        printf("文件描述符限制:\n");
        printf("  软限制: %lld\n", (long long)limit.rlim_cur);
        printf("  硬限制: %lld\n", (long long)limit.rlim_max);
    }
    
    // 设置新的文件大小限制（仅作为示例）
    struct rlimit64 new_limit;
    new_limit.rlim_cur = 1024 * 1024;  // 1MB
    new_limit.rlim_max = 1024 * 1024;  // 1MB
    
    // 注意：修改资源限制通常需要适当权限
    if (prlimit64(0, RLIMIT_FSIZE, &new_limit, NULL) == 0) {
        printf("成功设置文件大小限制为 1MB\n");
    } else {
        if (errno == EPERM) {
            printf("权限不足，无法修改资源限制\n");
        } else {
            perror("设置资源限制失败");
        }
    }
    
    return 0;
}

3. 性能对比测试

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/uio.h>
#include <time.h>
#include <string.h>

#define ITERATIONS 10000
#define BUFFER_SIZE 1024

// 性能测试函数
double benchmark_function(const char *name, 
                         ssize_t (*func)(int, void*, size_t, off_t)) {
    int fd = open("benchmark_test.dat", O_CREAT | O_RDWR, 0644);
    char *buffer = malloc(BUFFER_SIZE);
    
    // 准备测试数据
    memset(buffer, 'A', BUFFER_SIZE);
    write(fd, buffer, BUFFER_SIZE);
    
    struct timespec start, end;
    clock_gettime(CLOCK_MONOTONIC, &start);
    
    // 执行测试
    for (int i = 0; i < ITERATIONS; i++) {
        func(fd, buffer, BUFFER_SIZE, 0);
    }
    
    clock_gettime(CLOCK_MONOTONIC, &end);
    
    double elapsed = (end.tv_sec - start.tv_sec) * 1000000.0 +
                     (end.tv_nsec - start.tv_nsec) / 1000.0;
    
    free(buffer);
    close(fd);
    unlink("benchmark_test.dat");
    
    printf("%-15s: %.2f 微秒 (平均 %.3f 纳秒/次)\n", 
           name, elapsed, elapsed * 1000.0 / ITERATIONS);
    
    return elapsed;
}

// 模拟不同函数的包装器
ssize_t wrapper_pread(int fd, void *buf, size_t count, off_t offset) {
    return pread(fd, buf, count, offset);
}

int main() {
    printf("=== I/O 系统调用性能对比 ===\n\n");
    
    // 创建大测试文件
    int test_fd = open("large_test_file.dat", O_CREAT | O_WRONLY | O_TRUNC, 0644);
    char *large_buffer = malloc(1024 * 1024);  // 1MB
    for (int i = 0; i < 10; i++) {  // 10MB 文件
        write(test_fd, large_buffer, 1024 * 1024);
    }
    free(large_buffer);
    close(test_fd);
    
    printf("创建 10MB 测试文件完成\n\n");
    
    // 测试不同的读取方式
    benchmark_function("pread", wrapper_pread);
    
    printf("\n性能分析:\n");
    printf("1. pread/pwrite: 适合随机访问场景\n");
    printf("2. preadv/pwritev: 适合多缓冲区操作\n");
    printf("3. preadv2/pwritev2: 提供更多控制选项\n");
    printf("4. prlimit64: 用于资源管理而非 I/O 操作\n");
    
    unlink("large_test_file.dat");
    return 0;
}

4. 实际应用场景

4.1 数据库存储引擎

#include <stdio.h>
#include <sys/uio.h>
#include <fcntl.h>

// 模拟数据库页读取
typedef struct {
    int page_id;
    char data[4096];
    int checksum;
} db_page_t;

int read_database_pages(const char *db_file, int *page_ids, int count) {
    int fd = open(db_file, O_RDONLY);
    if (fd == -1) return -1;
    
    struct iovec *iov = malloc(count * sizeof(struct iovec));
    db_page_t *pages = malloc(count * sizeof(db_page_t));
    
    // 设置分散读取
    for (int i = 0; i < count; i++) {
        iov[i].iov_base = &pages[i];
        iov[i].iov_len = sizeof(db_page_t);
    }
    
    // 一次性读取多个数据库页
    ssize_t bytes_read = preadv(fd, iov, count, 0);
    
    printf("读取 %d 个数据库页，共 %zd 字节\n", count, bytes_read);
    
    free(pages);
    free(iov);
    close(fd);
    return bytes_read > 0 ? 0 : -1;
}

4.2 网络协议处理

#include <sys/uio.h>
#include <stdio.h>

// 模拟网络包处理
typedef struct {
    uint32_t header;
    uint16_t type;
    uint16_t length;
} packet_header_t;

typedef struct {
    char payload[1024];
} packet_payload_t;

int process_network_packets(int socket_fd) {
    // 准备接收多个网络包
    struct iovec iov[5];  // 最多5个包
    packet_header_t headers[5];
    packet_payload_t payloads[5];
    
    // 设置分散接收缓冲区
    for (int i = 0; i < 5; i++) {
        iov[i*2].iov_base = &headers[i];
        iov[i*2].iov_len = sizeof(packet_header_t);
        
        iov[i*2+1].iov_base = &payloads[i];
        iov[i*2+1].iov_len = sizeof(packet_payload_t);
    }
    
    // 一次性接收多个包（简化示例）
    printf("准备接收网络数据包...\n");
    return 0;
}

5. 编译和运行

# 编译示例
gcc -o io_examples example1.c
gcc -o performance_test performance_test.c
gcc -o advanced_examples advanced_examples.c

# 运行示例
./io_examples
./performance_test
./advanced_examples

6. 使用建议

6.1 选择指南

场景	推荐函数	原因
简单顺序读写	read/write	简单直接
随机位置访问	pread/pwrite	原子操作，线程安全
多缓冲区操作	readv/writev	减少系统调用
位置+多缓冲区	preadv/pwritev	功能最强
需要高级控制	preadv2/pwritev2	支持标志控制
资源限制管理	prlimit64	专门用途

6.2 最佳实践

// 安全的 pread 封装
ssize_t safe_pread(int fd, void *buf, size_t count, off_t offset) {
    if (fd < 0 || !buf || count == 0) {
        errno = EINVAL;
        return -1;
    }
    
    ssize_t result;
    do {
        result = pread(fd, buf, count, offset);
    } while (result == -1 && errno == EINTR);
    
    return result;
}

// 安全的 preadv 封装
ssize_t safe_preadv(int fd, const struct iovec *iov, int iovcnt, off_t offset) {
    if (fd < 0 || !iov || iovcnt <= 0) {
        errno = EINVAL;
        return -1;
    }
    
    ssize_t result;
    do {
        result = preadv(fd, iov, iovcnt, offset);
    } while (result == -1 && errno == EINTR);
    
    return result;
}

这些高级 I/O 系统调用为 Linux 应用程序提供了强大而灵活的文件操作能力，正确使用它们可以显著提高程序的性能和可靠性。

发表在 linux文章 | 留下评论

process_vm_readv/process_vm_writev 接口详解

发表于2025-08-02由麦芽爸

基础接口

process_vm_readv(2)

NAME
       process_vm_readv, process_vm_writev - 在进程间传输数据

SYNOPSIS
       #define _GNU_SOURCE
       #include <sys/uio.h>
       
       ssize_t process_vm_readv(pid_t pid,
                               const struct iovec *local_iov,
                               unsigned long liovcnt,
                               const struct iovec *remote_iov,
                               unsigned long riovcnt,
                               unsigned long flags);
       
       ssize_t process_vm_writev(pid_t pid,
                                const struct iovec *local_iov,
                                unsigned long liovcnt,
                                const struct iovec *remote_iov,
                                unsigned long riovcnt,
                                unsigned long flags);

DESCRIPTION
       这些系统调用允许直接在调用进程和指定进程(pid)的内存之间传输数据，
       无需通过内核缓冲区复制。

       process_vm_readv() 从远程进程读取数据到本地进程
       process_vm_writev() 从本地进程写入数据到远程进程

       参数说明:
       - pid: 目标进程ID
       - local_iov: 本地内存区域描述符数组
       - liovcnt: 本地iovec数组元素个数
       - remote_iov: 远程内存区域描述符数组
       - riovcnt: 远程iovec数组元素个数
       - flags: 保留字段，必须为0

RETURN VALUE
       成功时返回传输的字节数，失败时返回-1并设置errno

ERRORS
       EACCES     没有权限访问目标进程内存
       EFAULT     指定的地址范围无效
       EINVAL     参数无效
       ENOMEM     内存不足
       EPERM      没有权限操作目标进程
       ESRCH      目标进程不存在

VERSIONS
       Linux 3.2+ 支持这些系统调用

CONFORMING TO
       这些是Linux特有的系统调用

NOTES
       需要相同用户ID或CAP_SYS_PTRACE权限
       目标进程必须正在运行
       不会触发目标进程的信号处理程序

数据结构

iovec 结构体

struct iovec {
    void  *iov_base;    /* 起始地址 */
    size_t iov_len;     /* 缓冲区长度 */
};

使用示例

示例1：基本内存读取

#define _GNU_SOURCE
#include <sys/uio.h>
#include <sys/types.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>

// 目标进程中需要读取的变量
int target_global_var = 42;
char target_string[] = "Hello from target process!";

int read_remote_memory(pid_t target_pid) {
    struct iovec local_iov[2];
    struct iovec remote_iov[2];
    ssize_t result;
    int local_int;
    char local_buffer[100];
    
    // 设置本地缓冲区
    local_iov[0].iov_base = &local_int;
    local_iov[0].iov_len = sizeof(local_int);
    local_iov[1].iov_base = local_buffer;
    local_iov[1].iov_len = sizeof(local_buffer);
    
    // 设置远程内存地址（需要知道目标进程中的确切地址）
    remote_iov[0].iov_base = &target_global_var;  // 实际使用中需要通过其他方式获取
    remote_iov[0].iov_len = sizeof(target_global_var);
    remote_iov[1].iov_base = target_string;
    remote_iov[1].iov_len = strlen(target_string) + 1;
    
    // 读取远程进程内存
    result = process_vm_readv(target_pid,
                             local_iov, 2,
                             remote_iov, 2,
                             0);
    
    if (result == -1) {
        perror("process_vm_readv");
        return -1;
    }
    
    printf("Read %zd bytes\n", result);
    printf("Remote int value: %d\n", local_int);
    printf("Remote string: %s\n", local_buffer);
    
    return 0;
}

示例2：内存写入操作

#define _GNU_SOURCE
#include <sys/uio.h>
#include <sys/types.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>

// 目标进程中的可修改变量
int target_writable_var = 100;
char target_writable_buffer[256] = "Original content";

int write_remote_memory(pid_t target_pid) {
    struct iovec local_iov[2];
    struct iovec remote_iov[2];
    ssize_t result;
    int new_value = 999;
    char new_string[] = "Modified by process_vm_writev!";
    
    // 设置本地数据源
    local_iov[0].iov_base = &new_value;
    local_iov[0].iov_len = sizeof(new_value);
    local_iov[1].iov_base = new_string;
    local_iov[1].iov_len = strlen(new_string) + 1;
    
    // 设置远程内存地址
    remote_iov[0].iov_base = &target_writable_var;
    remote_iov[0].iov_len = sizeof(target_writable_var);
    remote_iov[1].iov_base = target_writable_buffer;
    remote_iov[1].iov_len = strlen(new_string) + 1;
    
    // 写入远程进程内存
    result = process_vm_writev(target_pid,
                              local_iov, 2,
                              remote_iov, 2,
                              0);
    
    if (result == -1) {
        perror("process_vm_writev");
        return -1;
    }
    
    printf("Wrote %zd bytes to remote process\n", result);
    return 0;
}

示例3：完整的工作示例

目标进程代码 (target.c)

#define _GNU_SOURCE
#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
#include <signal.h>

volatile int shared_int = 12345;
char shared_string[256] = "This is shared data from target process";
int running = 1;

void signal_handler(int sig) {
    printf("Received signal %d\n", sig);
    running = 0;
}

int main() {
    printf("Target process PID: %d\n", getpid());
    printf("Shared int address: %p\n", &shared_int);
    printf("Shared string address: %p\n", shared_string);
    printf("Shared int value: %d\n", shared_int);
    printf("Shared string value: %s\n", shared_string);
    
    // 安装信号处理程序
    signal(SIGUSR1, signal_handler);
    
    printf("Target process running... Send SIGUSR1 to stop\n");
    
    while (running) {
        printf("shared_int = %d, shared_string = %s\n", 
               shared_int, shared_string);
        sleep(2);
    }
    
    printf("Target process exiting...\n");
    printf("Final values - shared_int = %d, shared_string = %s\n", 
           shared_int, shared_string);
    
    return 0;
}

访问进程代码 (accessor.c)

#define _GNU_SOURCE
#include <sys/uio.h>
#include <sys/types.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <signal.h>

int main(int argc, char *argv[]) {
    if (argc != 2) {
        fprintf(stderr, "Usage: %s <target_pid>\n", argv[0]);
        exit(1);
    }
    
    pid_t target_pid = atoi(argv[1]);
    struct iovec local_iov[2];
    struct iovec remote_iov[2];
    ssize_t result;
    int local_int;
    char local_string[256];
    int new_int = 99999;
    char new_string[] = "Modified by accessor process!";
    
    printf("Accessing process PID: %d\n", getpid());
    printf("Target PID: %d\n", target_pid);
    
    // 读取远程进程内存
    printf("\n--- Reading remote memory ---\n");
    local_iov[0].iov_base = &local_int;
    local_iov[0].iov_len = sizeof(local_int);
    local_iov[1].iov_base = local_string;
    local_iov[1].iov_len = sizeof(local_string);
    
    // 注意：这里需要知道目标进程的确切内存地址
    // 在实际应用中，这些地址需要通过调试信息或其他方式获取
    remote_iov[0].iov_base = (void*)0x601040;  // 需要根据实际情况调整
    remote_iov[0].iov_len = sizeof(int);
    remote_iov[1].iov_base = (void*)0x601060;  // 需要根据实际情况调整
    remote_iov[1].iov_len = sizeof(local_string);
    
    result = process_vm_readv(target_pid,
                             local_iov, 2,
                             remote_iov, 2,
                             0);
    
    if (result == -1) {
        perror("process_vm_readv");
        printf("Note: You need to adjust memory addresses based on target process\n");
        return 1;
    }
    
    printf("Read %zd bytes\n", result);
    printf("Remote int value: %d\n", local_int);
    printf("Remote string: %s\n", local_string);
    
    // 修改远程进程内存
    printf("\n--- Writing to remote memory ---\n");
    local_iov[0].iov_base = &new_int;
    local_iov[0].iov_len = sizeof(new_int);
    local_iov[1].iov_base = new_string;
    local_iov[1].iov_len = strlen(new_string) + 1;
    
    result = process_vm_writev(target_pid,
                              local_iov, 2,
                              remote_iov, 2,
                              0);
    
    if (result == -1) {
        perror("process_vm_writev");
        return 1;
    }
    
    printf("Wrote %zd bytes to remote process\n", result);
    
    // 再次读取验证修改
    printf("\n--- Verifying changes ---\n");
    result = process_vm_readv(target_pid,
                             local_iov, 2,
                             remote_iov, 2,
                             0);
    
    if (result != -1) {
        printf("Remote int value after write: %d\n", local_int);
        printf("Remote string after write: %s\n", local_string);
    }
    
    // 发送信号给目标进程
    printf("\n--- Sending signal to target process ---\n");
    if (kill(target_pid, SIGUSR1) == -1) {
        perror("kill");
    } else {
        printf("Signal sent successfully\n");
    }
    
    return 0;
}

示例4：实用工具 – 进程内存检查器

#define _GNU_SOURCE
#include <sys/uio.h>
#include <sys/types.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <fcntl.h>

// 简单的内存转储工具
int dump_remote_memory(pid_t pid, unsigned long addr, size_t size) {
    char *buffer;
    struct iovec local_iov[1];
    struct iovec remote_iov[1];
    ssize_t result;
    size_t i;
    
    buffer = malloc(size);
    if (!buffer) {
        perror("malloc");
        return -1;
    }
    
    local_iov[0].iov_base = buffer;
    local_iov[0].iov_len = size;
    
    remote_iov[0].iov_base = (void*)addr;
    remote_iov[0].iov_len = size;
    
    result = process_vm_readv(pid,
                             local_iov, 1,
                             remote_iov, 1,
                             0);
    
    if (result == -1) {
        perror("process_vm_readv");
        free(buffer);
        return -1;
    }
    
    printf("Memory dump at 0x%lx (%zd bytes):\n", addr, result);
    for (i = 0; i < (size_t)result; i++) {
        if (i % 16 == 0) {
            printf("\n%08lx: ", addr + i);
        }
        printf("%02x ", (unsigned char)buffer[i]);
    }
    printf("\n");
    
    // 显示可打印字符
    printf("\nASCII: ");
    for (i = 0; i < (size_t)result; i++) {
        if (i % 16 == 0 && i > 0) {
            printf("\n       ");
        }
        printf("%c", (buffer[i] >= 32 && buffer[i] <= 126) ? buffer[i] : '.');
    }
    printf("\n");
    
    free(buffer);
    return 0;
}

int main(int argc, char *argv[]) {
    if (argc != 4) {
        fprintf(stderr, "Usage: %s <pid> <address> <size>\n", argv[0]);
        fprintf(stderr, "Example: %s 1234 0x601040 64\n", argv[0]);
        exit(1);
    }
    
    pid_t target_pid = atoi(argv[1]);
    unsigned long address = strtoul(argv[2], NULL, 0);
    size_t size = strtoul(argv[3], NULL, 0);
    
    printf("Dumping %zu bytes from process %d at address 0x%lx\n", 
           size, target_pid, address);
    
    return dump_remote_memory(target_pid, address, size);
}

示例5：批量内存操作

#define _GNU_SOURCE
#include <sys/uio.h>
#include <sys/types.h>
#include <unistd.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>

#define MAX_IOV 1024

typedef struct {
    void *remote_addr;
    size_t size;
    void *local_buffer;
} memory_region_t;

// 批量读取多个内存区域
int batch_read_memory(pid_t pid, memory_region_t *regions, int count) {
    struct iovec local_iov[MAX_IOV];
    struct iovec remote_iov[MAX_IOV];
    ssize_t result;
    int i;
    
    if (count > MAX_IOV) {
        fprintf(stderr, "Too many regions\n");
        return -1;
    }
    
    // 设置iovec数组
    for (i = 0; i < count; i++) {
        local_iov[i].iov_base = regions[i].local_buffer;
        local_iov[i].iov_len = regions[i].size;
        remote_iov[i].iov_base = regions[i].remote_addr;
        remote_iov[i].iov_len = regions[i].size;
    }
    
    result = process_vm_readv(pid,
                             local_iov, count,
                             remote_iov, count,
                             0);
    
    if (result == -1) {
        perror("process_vm_readv");
        return -1;
    }
    
    printf("Batch read completed: %zd bytes total\n", result);
    return 0;
}

// 批量写入多个内存区域
int batch_write_memory(pid_t pid, memory_region_t *regions, int count) {
    struct iovec local_iov[MAX_IOV];
    struct iovec remote_iov[MAX_IOV];
    ssize_t result;
    int i;
    
    if (count > MAX_IOV) {
        fprintf(stderr, "Too many regions\n");
        return -1;
    }
    
    // 设置iovec数组
    for (i = 0; i < count; i++) {
        local_iov[i].iov_base = regions[i].local_buffer;
        local_iov[i].iov_len = regions[i].size;
        remote_iov[i].iov_base = regions[i].remote_addr;
        remote_iov[i].iov_len = regions[i].size;
    }
    
    result = process_vm_writev(pid,
                              local_iov, count,
                              remote_iov, count,
                              0);
    
    if (result == -1) {
        perror("process_vm_writev");
        return -1;
    }
    
    printf("Batch write completed: %zd bytes total\n", result);
    return 0;
}

int main() {
    printf("Batch memory operations example\n");
    printf("This example shows how to perform batch operations\n");
    printf("You need to provide actual PID and memory addresses\n");
    return 0;
}

使用限制和注意事项

权限要求

相同用户: 调用进程和目标进程必须有相同的有效用户ID
ptrace权限: 或者调用进程需要 CAP_SYS_PTRACE 权能
进程状态: 目标进程必须正在运行（不是僵尸进程）

安全限制

内存保护: 不能访问目标进程的受保护内存区域
地址有效性: 必须确保远程地址在目标进程的有效地址空间内
对齐要求: 某些体系结构可能有内存对齐要求

技术限制

最大IOV数量: 系统可能限制iovec数组的最大长度
性能考虑: 大量小的传输可能不如批量传输高效
原子性: 单次调用内的多个传输不是原子的

错误处理

部分传输: 可能只传输部分数据，需要检查返回值
地址错误: 无效地址会导致整个操作失败
进程终止: 目标进程在操作过程中终止会导致错误

最佳实践

地址获取: 使用调试信息或符号表获取准确的内存地址
缓冲区管理: 确保本地缓冲区足够大且生命周期正确
错误检查: 始终检查返回值并处理错误情况
权限验证: 在执行操作前验证权限和进程状态

这些系统调用提供了强大的进程间内存访问能力，但使用时需要谨慎处理安全和权限问题。

发表在 linux文章 | 留下评论

Linux I/O 系统调用完整对比分析

发表于2025-08-02由麦芽爸

Linux 提供了丰富的 I/O 系统调用，每种都有其特定的用途和优势。本文将详细分析这些系统调用的特点、使用场景和性能特征。

1. 概述

Linux 提供了丰富的 I/O 系统调用，每种都有其特定的用途和优势。本文将详细分析这些系统调用的特点、使用场景和性能特征。

2. 系统调用详细对比

2.1 基本读写函数

pread/pwrite

#include <unistd.h>

// 位置指定读取/写入
ssize_t pread(int fd, void *buf, size_t count, off_t offset);
ssize_t pwrite(int int fd, const void *buf, size_t count, off_t offset);

特点：

原子操作（读取/写入 + 位置指定）
不改变文件描述符的当前位置
线程安全

read/write

#include <unistd.h>

// 基本读取/写入
ssize_t read(int fd, void *buf, size_t count);
ssize_t write(int fd, const void *buf, size_t count);

特点：

最基本的 I/O 操作
会改变文件描述符的当前位置
相对简单但功能有限

2.2 分散/聚集 I/O 函数

preadv/pwritev

#include <sys/uio.h>

// 位置指定的分散读取/聚集写入
ssize_t preadv(int fd, const struct iovec *iov, int iovcnt, off_t offset);
ssize_t pwritev(int fd, const struct iovec *iov, int iovcnt, off_t offset);

preadv2/pwritev2

#define _GNU_SOURCE
#include <sys/uio.h>

// 带标志的增强版分散/聚集 I/O
ssize_t preadv2(int fd, const struct iovec *iov, int iovcnt, 
                off_t offset, int flags);
ssize_t pwritev2(int fd, const struct iovec *iov, int iovcnt, 
                 off_t offset, int flags);

2.3 资源限制函数

prlimit64

#include <sys/resource.h>

// 获取/设置进程资源限制
int prlimit64(pid_t pid, int resource, 
              const struct rlimit64 *new_limit, 
              struct rlimit64 *old_limit);

3. 功能对比表

函数	位置指定	分散/聚集	标志控制	原子性	跨平台
read/write	❌	❌	❌	⚠️	✅
pread/pwrite	✅	❌	❌	✅	✅
readv/writev	❌	✅	❌	⚠️	✅
preadv/pwritev	✅	✅	❌	✅	✅
preadv2/pwritev2	✅	✅	✅	✅	❌
prlimit64	❌	❌	❌	❌	✅

4. 实际示例代码

4.1 基础读写对比

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/uio.h>
#include <string.h>
#include <errno.h>
#include <time.h>

// 创建测试文件
void create_test_file(const char *filename) {
    int fd = open(filename, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd == -1) {
        perror("创建文件失败");
        return;
    }
    
    const char *content = 
        "Line 1: This is the first line of test data.\n"
        "Line 2: This is the second line of test data.\n"
        "Line 3: This is the third line of test data.\n"
        "Line 4: This is the fourth line of test data.\n"
        "Line 5: This is the fifth and final line.\n";
    
    write(fd, content, strlen(content));
    close(fd);
    printf("创建测试文件: %s\n", filename);
}

// read/pread 性能对比
void compare_basic_io(const char *filename) {
    int fd = open(filename, O_RDONLY);
    if (fd == -1) {
        perror("打开文件失败");
        return;
    }
    
    char buffer[100];
    ssize_t bytes_read;
    struct timespec start, end;
    
    printf("\n=== 基础 I/O 对比 ===\n");
    
    // 使用 read (会改变文件位置)
    printf("1. read 测试:\n");
    clock_gettime(CLOCK_MONOTONIC, &start);
    bytes_read = read(fd, buffer, 50);
    clock_gettime(CLOCK_MONOTONIC, &end);
    buffer[bytes_read] = '\0';
    printf("   读取 %zd 字节: %.30s...\n", bytes_read, buffer);
    printf("   当前文件位置: %ld\n", (long)lseek(fd, 0, SEEK_CUR));
    
    // 使用 pread (不改变文件位置)
    printf("2. pread 测试:\n");
    clock_gettime(CLOCK_MONOTONIC, &start);
    bytes_read = pread(fd, buffer, 50, 0);  // 从开头读取
    clock_gettime(CLOCK_MONOTONIC, &end);
    buffer[bytes_read] = '\0';
    printf("   读取 %zd 字节: %.30s...\n", bytes_read, buffer);
    printf("   文件位置仍为: %ld\n", (long)lseek(fd, 0, SEEK_CUR));
    
    close(fd);
}

// 分散/聚集 I/O 示例
void demonstrate_vector_io(const char *filename) {
    int fd = open(filename, O_RDONLY);
    if (fd == -1) {
        perror("打开文件失败");
        return;
    }
    
    printf("\n=== 分散/聚集 I/O 示例 ===\n");
    
    // 设置分散读取缓冲区
    char buffer1[20], buffer2[30], buffer3[25];
    struct iovec iov[3];
    
    iov[0].iov_base = buffer1;
    iov[0].iov_len = sizeof(buffer1) - 1;
    
    iov[1].iov_base = buffer2;
    iov[1].iov_len = sizeof(buffer2) - 1;
    
    iov[2].iov_base = buffer3;
    iov[2].iov_len = sizeof(buffer3) - 1;
    
    printf("分散读取设置:\n");
    printf("  缓冲区1: %zu 字节\n", iov[0].iov_len);
    printf("  缓冲区2: %zu 字节\n", iov[1].iov_len);
    printf("  缓冲区3: %zu 字节\n", iov[2].iov_len);
    
    // 使用 preadv 一次性读取到多个缓冲区
    ssize_t total_bytes = preadv(fd, iov, 3, 0);  // 从文件开头开始读取
    printf("总共读取: %zd 字节\n", total_bytes);
    
    if (total_bytes > 0) {
        buffer1[iov[0].iov_len] = '\0';
        buffer2[iov[1].iov_len] = '\0';
        buffer3[iov[2].iov_len] = '\0';
        
        printf("读取结果:\n");
        printf("  缓冲区1: %s\n", buffer1);
        printf("  缓冲区2: %s\n", buffer2);
        printf("  缓冲区3: %s\n", buffer3);
    }
    
    close(fd);
}

// 资源限制示例
void demonstrate_resource_limits() {
    printf("\n=== 资源限制示例 ===\n");
    
    struct rlimit64 limit;
    
    // 获取当前进程的文件大小限制
    if (prlimit64(0, RLIMIT_FSIZE, NULL, &limit) == 0) {
        printf("文件大小限制:\n");
        printf("  软限制: %lld\n", (long long)limit.rlim_cur);
        printf("  硬限制: %lld\n", (long long)limit.rlim_max);
    }
    
    // 获取内存限制
    if (prlimit64(0, RLIMIT_AS, NULL, &limit) == 0) {
        printf("虚拟内存限制:\n");
        if (limit.rlim_cur == RLIM64_INFINITY) {
            printf("  软限制: 无限制\n");
        } else {
            printf("  软限制: %lld 字节 (%.2f MB)\n", 
                   (long long)limit.rlim_cur,
                   (double)limit.rlim_cur / (1024 * 1024));
        }
        if (limit.rlim_max == RLIM64_INFINITY) {
            printf("  硬限制: 无限制\n");
        } else {
            printf("  硬限制: %lld 字节 (%.2f MB)\n", 
                   (long long)limit.rlim_max,
                   (double)limit.rlim_max / (1024 * 1024));
        }
    }
    
    // 获取打开文件数限制
    if (prlimit64(0, RLIMIT_NOFILE, NULL, &limit) == 0) {
        printf("文件描述符限制:\n");
        printf("  软限制: %lld\n", (long long)limit.rlim_cur);
        printf("  硬限制: %lld\n", (long long)limit.rlim_max);
    }
}

int main() {
    const char *test_file = "io_test_file.txt";
    
    printf("=== Linux I/O 系统调用对比分析 ===\n");
    
    // 创建测试文件
    create_test_file(test_file);
    
    // 基础 I/O 对比
    compare_basic_io(test_file);
    
    // 分散/聚集 I/O 示例
    demonstrate_vector_io(test_file);
    
    // 资源限制示例
    demonstrate_resource_limits();
    
    // 清理
    unlink(test_file);
    
    printf("\n=== 使用建议 ===\n");
    printf("选择指南:\n");
    printf("1. 简单读写: 使用 read/write\n");
    printf("2. 需要指定位置: 使用 pread/pwrite\n");
    printf("3. 多缓冲区操作: 使用 preadv/pwritev\n");
    printf("4. 需要高级控制: 使用 preadv2/pwritev2\n");
    printf("5. 资源限制管理: 使用 prlimit64\n");
    
    return 0;
}

4.2 性能基准测试

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/uio.h>
#include <time.h>
#include <string.h>

#define ITERATIONS 10000
#define BUFFER_SIZE 1024

// 性能测试结构体
struct performance_test {
    const char *name;
    double (*test_func)(int fd, const char *filename);
};

// read 性能测试
double test_read_performance(int fd, const char *filename) {
    char buffer[BUFFER_SIZE];
    struct timespec start, end;
    
    clock_gettime(CLOCK_MONOTONIC, &start);
    
    for (int i = 0; i < ITERATIONS; i++) {
        lseek(fd, 0, SEEK_SET);  // 重置到文件开头
        read(fd, buffer, sizeof(buffer));
    }
    
    clock_gettime(CLOCK_MONOTONIC, &end);
    
    return (end.tv_sec - start.tv_sec) * 1000000.0 + 
           (end.tv_nsec - start.tv_nsec) / 1000.0;  // 微秒
}

// pread 性能测试
double test_pread_performance(int fd, const char *filename) {
    char buffer[BUFFER_SIZE];
    struct timespec start, end;
    
    clock_gettime(CLOCK_MONOTONIC, &start);
    
    for (int i = 0; i < ITERATIONS; i++) {
        pread(fd, buffer, sizeof(buffer), 0);  // 始终从位置0读取
    }
    
    clock_gettime(CLOCK_MONOTONIC, &end);
    
    return (end.tv_sec - start.tv_sec) * 1000000.0 + 
           (end.tv_nsec - start.tv_nsec) / 1000.0;  // 微秒
}

// readv 性能测试
double test_readv_performance(int fd, const char *filename) {
    char buffer1[256], buffer2[256], buffer3[256], buffer4[256];
    struct iovec iov[4];
    struct timespec start, end;
    
    // 设置分散读取
    iov[0].iov_base = buffer1;
    iov[0].iov_len = sizeof(buffer1);
    iov[1].iov_base = buffer2;
    iov[1].iov_len = sizeof(buffer2);
    iov[2].iov_base = buffer3;
    iov[2].iov_len = sizeof(buffer3);
    iov[3].iov_base = buffer4;
    iov[3].iov_len = sizeof(buffer4);
    
    clock_gettime(CLOCK_MONOTONIC, &start);
    
    for (int i = 0; i < ITERATIONS; i++) {
        lseek(fd, 0, SEEK_SET);
        readv(fd, iov, 4);
    }
    
    clock_gettime(CLOCK_MONOTONIC, &end);
    
    return (end.tv_sec - start.tv_sec) * 1000000.0 + 
           (end.tv_nsec - start.tv_nsec) / 1000.0;  // 微秒
}

// preadv 性能测试
double test_preadv_performance(int fd, const char *filename) {
    char buffer1[256], buffer2[256], buffer3[256], buffer4[256];
    struct iovec iov[4];
    struct timespec start, end;
    
    // 设置分散读取
    iov[0].iov_base = buffer1;
    iov[0].iov_len = sizeof(buffer1);
    iov[1].iov_base = buffer2;
    iov[1].iov_len = sizeof(buffer2);
    iov[2].iov_base = buffer3;
    iov[2].iov_len = sizeof(buffer3);
    iov[3].iov_base = buffer4;
    iov[3].iov_len = sizeof(buffer4);
    
    clock_gettime(CLOCK_MONOTONIC, &start);
    
    for (int i = 0; i < ITERATIONS; i++) {
        preadv(fd, iov, 4, 0);  // 始终从位置0读取
    }
    
    clock_gettime(CLOCK_MONOTONIC, &end);
    
    return (end.tv_sec - start.tv_sec) * 1000000.0 + 
           (end.tv_nsec - start.tv_nsec) / 1000.0;  // 微秒
}

void run_performance_benchmark() {
    const char *test_file = "benchmark_test.dat";
    int fd;
    
    printf("=== I/O 性能基准测试 ===\n");
    
    // 创建大测试文件
    fd = open(test_file, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    if (fd != -1) {
        char *buffer = malloc(1024 * 1024);  // 1MB 缓冲区
        if (buffer) {
            for (int i = 0; i < 10; i++) {  // 创建 10MB 文件
                write(fd, buffer, 1024 * 1024);
            }
            free(buffer);
        }
        close(fd);
    }
    
    // 打开文件进行读取测试
    fd = open(test_file, O_RDONLY);
    if (fd == -1) {
        perror("打开测试文件失败");
        return;
    }
    
    struct performance_test tests[] = {
        {"read", test_read_performance},
        {"pread", test_pread_performance},
        {"readv", test_readv_performance},
        {"preadv", test_preadv_performance},
        {NULL, NULL}
    };
    
    printf("%-10s %-15s %-15s\n", "函数", "耗时(微秒)", "平均耗时(纳秒)");
    printf("%-10s %-15s %-15s\n", "----", "----------", "--------------");
    
    for (int i = 0; tests[i].name; i++) {
        double total_time = tests[i].test_func(fd, test_file);
        double avg_time = total_time * 1000.0 / ITERATIONS;
        
        printf("%-10s %-15.2f %-15.2f\n", 
               tests[i].name, total_time, avg_time);
    }
    
    close(fd);
    unlink(test_file);
    
    printf("\n性能分析:\n");
    printf("1. pread 比 read 略慢 (位置指定开销)\n");
    printf("2. readv/preadv 在多缓冲区场景下更高效\n");
    printf("3. preadv2/pwritev2 提供更多控制选项\n");
    printf("4. 选择应基于具体使用场景\n");
}

int main() {
    printf("=== Linux I/O 系统调用完整对比分析 ===\n\n");
    
    // 运行性能基准测试
    run_performance_benchmark();
    
    printf("\n=== 详细功能对比 ===\n");
    printf("pread vs read:\n");
    printf("  • pread: 指定位置读取，不改变文件位置\n");
    printf("  • read: 顺序读取，会改变文件位置\n");
    printf("\n");
    
    printf("preadv vs pread:\n");
    printf("  • preadv: 分散读取到多个缓冲区\n");
    printf("  • pread: 读取到单个缓冲区\n");
    printf("\n");
    
    printf("preadv2 vs preadv:\n");
    printf("  • preadv2: 支持额外标志控制\n");
    printf("  • preadv: 基本的分散读取功能\n");
    printf("\n");
    
    printf("prlimit64:\n");
    printf("  • 用于获取和设置进程资源限制\n");
    printf("  • 支持 64 位资源限制值\n");
    printf("  • 可以操作其他进程的资源限制\n");
    
    printf("\n=== 实际应用建议 ===\n");
    printf("1. 日志文件读写: 使用 pread/pwrite\n");
    printf("2. 数据库存储引擎: 使用 preadv/pwritev\n");
    printf("3. 高性能网络服务: 使用 preadv2/pwritev2\n");
    printf("4. 系统资源管理: 使用 prlimit64\n");
    printf("5. 简单文件操作: 使用 read/write\n");
    
    return 0;
}

4.3 实际应用场景演示

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/uio.h>
#include <string.h>
#include <errno.h>
#include <sys/resource.h>

// 日志文件读取示例
void log_file_reader_example() {
    printf("=== 日志文件读取场景 ===\n");
    
    // 创建模拟日志文件
    const char *log_file = "application.log";
    int fd = open(log_file, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    
    if (fd != -1) {
        const char *log_entries[] = {
            "2023-01-01 10:00:00 INFO Application started\n",
            "2023-01-01 10:00:01 DEBUG Loading configuration\n",
            "2023-01-01 10:00:02 WARN Low memory warning\n",
            "2023-01-01 10:00:03 ERROR Database connection failed\n",
            "2023-01-01 10:00:04 INFO Recovery attempt started\n"
        };
        
        for (int i = 0; i < 5; i++) {
            write(fd, log_entries[i], strlen(log_entries[i]));
        }
        close(fd);
    }
    
    // 使用 pread 读取特定时间段的日志
    fd = open(log_file, O_RDONLY);
    if (fd != -1) {
        char buffer[256];
        
        printf("读取最后一条日志记录:\n");
        // 从文件末尾附近读取
        ssize_t bytes_read = pread(fd, buffer, sizeof(buffer) - 1, 150);
        if (bytes_read > 0) {
            buffer[bytes_read] = '\0';
            printf("  %s", buffer);
        }
        
        close(fd);
    }
    
    unlink(log_file);
}

// 数据库页读取示例
void database_page_reader_example() {
    printf("\n=== 数据库页读取场景 ===\n");
    
    const char *db_file = "database_pages.dat";
    int fd = open(db_file, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    
    if (fd != -1) {
        // 创建模拟的数据库页
        char page_data[4096];
        for (int page = 0; page < 10; page++) {
            snprintf(page_data, sizeof(page_data), 
                    "Page %d: Database page content with ID=%d and timestamp=%ld\n",
                    page, page * 1000, time(NULL));
            write(fd, page_data, strlen(page_data));
        }
        close(fd);
    }
    
    // 使用 preadv 读取多个数据库页
    fd = open(db_file, O_RDONLY);
    if (fd != -1) {
        char page1[1024], page2[1024], page3[1024];
        struct iovec iov[3];
        
        // 设置分散读取
        iov[0].iov_base = page1;
        iov[0].iov_len = sizeof(page1) - 1;
        
        iov[1].iov_base = page2;
        iov[1].iov_len = sizeof(page2) - 1;
        
        iov[2].iov_base = page3;
        iov[2].iov_len = sizeof(page3) - 1;
        
        printf("使用 preadv 读取多个数据库页:\n");
        ssize_t total_bytes = preadv(fd, iov, 3, 0);  // 从开头读取
        printf("  总共读取: %zd 字节\n", total_bytes);
        
        if (total_bytes > 0) {
            page1[iov[0].iov_len] = '\0';
            page2[iov[1].iov_len] = '\0';
            page3[iov[2].iov_len] = '\0';
            
            printf("  页1: %.50s...\n", page1);
            printf("  页2: %.50s...\n", page2);
            printf("  页3: %.50s...\n", page3);
        }
        
        close(fd);
    }
    
    unlink(db_file);
}

// 网络数据包处理示例
void network_packet_processor_example() {
    printf("\n=== 网络数据包处理场景 ===\n");
    
    // 模拟网络数据包结构
    struct packet_header {
        uint32_t magic;
        uint16_t version;
        uint16_t type;
        uint32_t length;
        uint32_t checksum;
    } __attribute__((packed));
    
    struct packet_payload {
        char data[1024];
    };
    
    // 创建测试数据包文件
    const char *packet_file = "network_packets.dat";
    int fd = open(packet_file, O_CREAT | O_WRONLY | O_TRUNC, 0644);
    
    if (fd != -1) {
        // 写入多个数据包
        for (int i = 0; i < 3; i++) {
            struct packet_header header = {
                .magic = 0x12345678,
                .version = 1,
                .type = i,
                .length = 100,
                .checksum = 0xABCDEF00 + i
            };
            
            char payload[1024];
            snprintf(payload, sizeof(payload), 
                    "Packet %d payload data with timestamp %ld", 
                    i, time(NULL));
            
            write(fd, &header, sizeof(header));
            write(fd, payload, strlen(payload) + 1);
        }
        close(fd);
    }
    
    // 使用 preadv2 读取数据包（如果支持）
    fd = open(packet_file, O_RDONLY);
    if (fd != -1) {
        struct packet_header headers[3];
        char payloads[3][256];
        struct iovec iov[6];  // 3个头部 + 3个载荷
        
        // 设置分散读取结构
        for (int i = 0; i < 3; i++) {
            iov[i*2].iov_base = &headers[i];
            iov[i*2].iov_len = sizeof(struct packet_header);
            
            iov[i*2+1].iov_base = payloads[i];
            iov[i*2+1].iov_len = sizeof(payloads[i]) - 1;
        }
        
        printf("使用分散读取处理网络数据包:\n");
        ssize_t bytes_read = preadv(fd, iov, 6, 0);
        printf("  读取字节数: %zd\n", bytes_read);
        
        if (bytes_read > 0) {
            for (int i = 0; i < 3; i++) {
                printf("  数据包 %d:\n", i);
                printf("    魔数: 0x%08X\n", headers[i].magic);
                printf("    版本: %d\n", headers[i].version);
                printf("    类型: %d\n", headers[i].type);
                printf("    长度: %d\n", headers[i].length);
                printf("    校验: 0x%08X\n", headers[i].checksum);
                payloads[i][iov[i*2+1].iov_len] = '\0';
                printf("    载荷: %.50s...\n", payloads[i]);
                printf("\n");
            }
        }
        
        close(fd);
    }
    
    unlink(packet_file);
}

// 资源限制管理示例
void resource_limit_management_example() {
    printf("\n=== 资源限制管理场景 ===\n");
    
    struct rlimit64 old_limit, new_limit;
    
    // 获取当前文件大小限制
    if (prlimit64(0, RLIMIT_FSIZE, NULL, &old_limit) == 0) {
        printf("当前文件大小限制:\n");
        if (old_limit.rlim_cur == RLIM64_INFINITY) {
            printf("  软限制: 无限制\n");
        } else {
            printf("  软限制: %lld 字节 (%.2f GB)\n", 
                   (long long)old_limit.rlim_cur,
                   (double)old_limit.rlim_cur / (1024 * 1024 * 1024));
        }
    }
    
    // 获取打开文件数限制
    if (prlimit64(0, RLIMIT_NOFILE, NULL, &old_limit) == 0) {
        printf("当前文件描述符限制:\n");
        printf("  软限制: %lld\n", (long long)old_limit.rlim_cur);
        printf("  硬限制: %lld\n", (long long)old_limit.rlim_max);
    }
    
    // 获取内存限制
    if (prlimit64(0, RLIMIT_AS, NULL, &old_limit) == 0) {
        printf("当前虚拟内存限制:\n");
        if (old_limit.rlim_cur == RLIM64_INFINITY) {
            printf("  软限制: 无限制\n");
        } else {
            printf("  软限制: %lld 字节 (%.2f GB)\n", 
                   (long long)old_limit.rlim_cur,
                   (double)old_limit.rlim_cur / (1024 * 1024 * 1024));
        }
    }
    
    printf("\n资源限制管理最佳实践:\n");
    printf("1. 合理设置文件大小限制防止磁盘填满\n");
    printf("2. 适当增加文件描述符限制支持高并发\n");
    printf("3. 监控内存使用防止内存泄漏\n");
    printf("4. 使用 prlimit64 动态调整资源限制\n");
}

int main() {
    printf("=== Linux I/O 系统调用应用场景演示 ===\n\n");
    
    // 日志文件读取场景
    log_file_reader_example();
    
    // 数据库页读取场景
    database_page_reader_example();
    
    // 网络数据包处理场景
    network_packet_processor_example();
    
    // 资源限制管理场景
    resource_limit_management_example();
    
    printf("\n=== 总结 ===\n");
    printf("I/O 系统调用选择指南:\n");
    printf("\n");
    printf("┌─────────────┬────────────────────────────────────┐\n");
    printf("│ 场景        │ 推荐函数                              │\n");
    printf("├─────────────┼────────────────────────────────────┤\n");
    printf("│ 简单读写    │ read/write                            │\n");
    printf("│ 位置指定    │ pread/pwrite                          │\n");
    printf("│ 多缓冲区    │ readv/writev                          │\n");
    printf("│ 位置+多缓冲 │ preadv/pwritev                        │\n");
    printf("│ 高级控制    │ preadv2/pwritev2                      │\n");
    printf("│ 资源限制    │ prlimit64                             │\n");
    printf("└─────────────┴────────────────────────────────────┘\n");
    printf("\n");
    printf("性能优化建议:\n");
    printf("1. 批量操作减少系统调用次数\n");
    printf("2. 合理选择缓冲区大小\n");
    printf("3. 使用位置指定避免文件位置移动\n");
    printf("4. 分散/聚集 I/O 减少内存拷贝\n");
    printf("5. 合理设置资源限制防止系统过载\n");
    
    return 0;
}

5. 编译和运行说明

# 编译示例程序
gcc -o io_comparison_example1 example1.c
gcc -o io_comparison_example2 example2.c
gcc -o io_comparison_example3 example3.c

# 运行示例
./io_comparison_example1
./io_comparison_example2
./io_comparison_example3

6. 系统要求检查

# 检查内核版本
uname -r

# 检查 glibc 版本
ldd --version

# 检查系统调用支持
grep -E "(pread|pwrite|prlimit)" /usr/include/asm/unistd_64.h

# 查看文件系统性能
hdparm -Tt /dev/sda  # 硬盘性能测试

7. 重要注意事项

原子性: pread/pwrite 操作是原子的
位置独立: 不改变文件描述符的当前位置
错误处理: 始终检查返回值和 errno
内存对齐: 在某些架构上有对齐要求
权限检查: 确保有足够的权限进行操作
资源清理: 及时关闭文件描述符

8. 最佳实践总结

// 安全的 I/O 操作封装
ssize_t safe_pread(int fd, void *buf, size_t count, off_t offset) {
    if (fd < 0 || !buf || count == 0) {
        errno = EINVAL;
        return -1;
    }
    
    ssize_t result;
    do {
        result = pread(fd, buf, count, offset);
    } while (result == -1 && errno == EINTR);
    
    return result;
}

// 安全的分散读取封装
ssize_t safe_preadv(int fd, const struct iovec *iov, int iovcnt, off_t offset) {
    if (fd < 0 || !iov || iovcnt <= 0 || iovcnt > IOV_MAX) {
        errno = EINVAL;
        return -1;
    }
    
    ssize_t result;
    do {
        result = preadv(fd, iov, iovcnt, offset);
    } while (result == -1 && errno == EINTR);
    
    return result;
}

// 资源限制检查
int check_resource_limits() {
    struct rlimit64 limit;
    
    // 检查文件大小限制
    if (prlimit64(0, RLIMIT_FSIZE, NULL, &limit) == 0) {
        if (limit.rlim_cur != RLIM64_INFINITY && limit.rlim_cur < 1024 * 1024) {
            printf("警告: 文件大小限制过小 (%lld 字节)\n", 
                   (long long)limit.rlim_cur);
        }
    }
    
    // 检查文件描述符限制
    if (prlimit64(0, RLIMIT_NOFILE, NULL, &limit) == 0) {
        if (limit.rlim_cur < 1024) {
            printf("警告: 文件描述符限制过小 (%lld)\n", 
                   (long long)limit.rlim_cur);
        }
    }
    
    return 0;
}

这些示例全面展示了 Linux I/O 系统调用的功能特点、使用方法和实际应用场景，帮助开发者根据具体需求选择合适的 I/O 操作方式。

发表在 linux文章 | 留下评论

Linux I/O 多路复用机制对比分析poll/ppoll/epoll/select

发表于2025-08-02由麦芽爸

Linux I/O 多路复用机制对比分析poll/ppoll/epoll/select

1. 概述

I/O 多路复用是现代高性能网络编程的核心技术，它允许单个线程同时监视多个文件描述符的状态变化，从而实现高效的并发处理。Linux 提供了多种 I/O 多路复用机制，每种都有其特点和适用场景。

本文将深入分析四种主要的 I/O 多路复用机制：select、poll、ppoll 和 epoll，并通过实际示例展示它们的使用方法和性能差异。

2. 四种机制对比分析

2.1 基本特性对比

特性	select	poll	ppoll	epoll
引入时间	早期Unix	SVR3 (1986)	Linux 2.6.16	Linux 2.5.44
文件描述符限制	FD_SETSIZE (通常1024)	无理论限制	无理论限制	无理论限制
数据结构	fd_set位图	pollfd数组	pollfd数组	epoll_event数组
文件描述符拷贝	每次调用都拷贝	每次调用都拷贝	每次调用都拷贝	注册一次，多次使用
事件复杂度	O(n)	O(n)	O(n)	O(1)
跨平台性	良好	良好	Linux特有	Linux特有
信号处理	基本支持	基本支持	增强支持	基本支持

2.2 详细特性分析

select

优点: 跨平台性最好，几乎所有Unix-like系统都支持
缺点: 文件描述符数量受限，每次调用都需要拷贝fd_set

poll

优点: 无文件描述符数量限制，API设计更清晰
缺点: 每次调用都需要遍历所有文件描述符

ppoll

优点: 提供了更好的信号处理机制，避免竞态条件
缺点: Linux特有，需要较新内核支持

epoll

优点: 性能最优，事件驱动，支持边缘触发和水平触发
缺点: Linux特有，学习成本较高

3. 实际示例代码

3.1 select 示例

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/select.h>
#include <sys/time.h>
#include <errno.h>
#include <string.h>

#define MAX_CLIENTS 1024
#define BUFFER_SIZE 1024

int main_select() {
    fd_set read_fds, master_fds;
    int max_fd = 0;
    int client_sockets[MAX_CLIENTS] = {0};
    char buffer[BUFFER_SIZE];
    
    printf("=== select 示例 ===\n");
    
    // 初始化文件描述符集合
    FD_ZERO(&master_fds);
    FD_SET(STDIN_FILENO, &master_fds);
    max_fd = STDIN_FILENO;
    
    while (1) {
        read_fds = master_fds;
        struct timeval timeout = {1, 0};  // 1秒超时
        
        int activity = select(max_fd + 1, &read_fds, NULL, NULL, &timeout);
        
        if (activity < 0) {
            if (errno == EINTR) continue;
            perror("select error");
            break;
        }
        
        if (activity == 0) {
            printf("select timeout\n");
            continue;
        }
        
        // 检查标准输入
        if (FD_ISSET(STDIN_FILENO, &read_fds)) {
            ssize_t bytes_read = read(STDIN_FILENO, buffer, sizeof(buffer) - 1);
            if (bytes_read > 0) {
                buffer[bytes_read] = '\0';
                printf("stdin: %s", buffer);
                
                if (strncmp(buffer, "quit", 4) == 0) {
                    break;
                }
            }
        }
    }
    
    return 0;
}

3.2 poll 示例

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <poll.h>
#include <errno.h>
#include <string.h>

#define MAX_FDS 10
#define TIMEOUT_MS 5000  // 5秒超时

int main_poll() {
    struct pollfd fds[MAX_FDS];
    int nfds = 1;
    char buffer[1024];
    
    printf("=== poll 示例 ===\n");
    
    // 初始化 pollfd 结构
    fds[0].fd = STDIN_FILENO;
    fds[0].events = POLLIN;
    fds[0].revents = 0;
    
    printf("监视标准输入，输入 'quit' 退出\n");
    
    while (1) {
        int ready = poll(fds, nfds, TIMEOUT_MS);
        
        if (ready == -1) {
            if (errno == EINTR) continue;
            perror("poll error");
            break;
        }
        
        if (ready == 0) {
            printf("poll timeout\n");
            continue;
        }
        
        // 处理就绪的文件描述符
        for (int i = 0; i < nfds; i++) {
            if (fds[i].revents & POLLIN) {
                if (fds[i].fd == STDIN_FILENO) {
                    ssize_t bytes_read = read(STDIN_FILENO, buffer, sizeof(buffer) - 1);
                    if (bytes_read > 0) {
                        buffer[bytes_read] = '\0';
                        printf("received: %s", buffer);
                        
                        if (strncmp(buffer, "quit", 4) == 0) {
                            return 0;
                        }
                    }
                }
            }
            
            if (fds[i].revents & (POLLERR | POLLHUP | POLLNVAL)) {
                printf("fd %d error\n", fds[i].fd);
                return 1;
            }
        }
    }
    
    return 0;
}

3.3 ppoll 示例

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <poll.h>
#include <signal.h>
#include <time.h>
#include <errno.h>
#include <string.h>

volatile sig_atomic_t signal_received = 0;

void signal_handler(int sig) {
    signal_received = sig;
    printf("\nSignal %d received\n", sig);
}

int main_ppoll() {
    struct pollfd fds[2];
    struct timespec timeout;
    sigset_t sigmask;
    char buffer[1024];
    
    printf("=== ppoll 示例 ===\n");
    
    // 设置信号处理
    struct sigaction sa;
    sa.sa_handler = signal_handler;
    sigemptyset(&sa.sa_mask);
    sa.sa_flags = 0;
    sigaction(SIGINT, &sa, NULL);
    sigaction(SIGTERM, &sa, NULL);
    
    // 初始化 pollfd
    fds[0].fd = STDIN_FILENO;
    fds[0].events = POLLIN;
    fds[0].revents = 0;
    
    // 设置超时时间
    timeout.tv_sec = 3;
    timeout.tv_nsec = 0;
    
    // 设置信号屏蔽集
    sigemptyset(&sigmask);
    
    printf("Monitoring stdin with ppoll...\n");
    printf("Press Ctrl+C to send signal\n");
    printf("Type 'quit' to exit\n");
    
    while (!signal_received) {
        int ready = ppoll(fds, 1, &timeout, &sigmask);
        
        if (ready == -1) {
            if (errno == EINTR) {
                printf("ppoll interrupted by signal\n");
                if (signal_received) {
                    printf("Signal handling complete\n");
                }
                continue;
            } else {
                perror("ppoll error");
                break;
            }
        }
        
        if (ready == 0) {
            printf("ppoll timeout\n");
            continue;
        }
        
        if (fds[0].revents & POLLIN) {
            ssize_t bytes_read = read(STDIN_FILENO, buffer, sizeof(buffer) - 1);
            if (bytes_read > 0) {
                buffer[bytes_read] = '\0';
                printf("Input: %s", buffer);
                
                if (strncmp(buffer, "quit", 4) == 0) {
                    break;
                }
            }
        }
        
        fds[0].revents = 0;  // 重置事件
    }
    
    printf("Program exiting normally\n");
    return 0;
}

3.4 epoll 示例

#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/epoll.h>
#include <fcntl.h>
#include <errno.h>
#include <string.h>

#define MAX_EVENTS 10
#define BUFFER_SIZE 1024

int make_socket_nonblocking(int fd) {
    int flags = fcntl(fd, F_GETFL, 0);
    if (flags == -1) {
        return -1;
    }
    return fcntl(fd, F_SETFL, flags | O_NONBLOCK);
}

int main_epoll() {
    int epoll_fd;
    struct epoll_event ev, events[MAX_EVENTS];
    char buffer[BUFFER_SIZE];
    
    printf("=== epoll 示例 ===\n");
    
    // 创建 epoll 实例
    epoll_fd = epoll_create1(0);
    if (epoll_fd == -1) {
        perror("epoll_create1");
        return 1;
    }
    
    // 设置标准输入为非阻塞
    if (make_socket_nonblocking(STDIN_FILENO) == -1) {
        perror("fcntl");
        close(epoll_fd);
        return 1;
    }
    
    // 添加标准输入到 epoll
    ev.events = EPOLLIN | EPOLLET;  // 边缘触发模式
    ev.data.fd = STDIN_FILENO;
    if (epoll_ctl(epoll_fd, EPOLL_CTL_ADD, STDIN_FILENO, &ev) == -1) {
        perror("epoll_ctl: stdin");
        close(epoll_fd);
        return 1;
    }
    
    printf("epoll monitoring stdin (edge-triggered mode)\n");
    printf("Type 'quit' to exit\n");
    
    while (1) {
        int nfds = epoll_wait(epoll_fd, events, MAX_EVENTS, 3000);  // 3秒超时
        
        if (nfds == -1) {
            if (errno == EINTR) continue;
            perror("epoll_wait");
            break;
        }
        
        if (nfds == 0) {
            printf("epoll timeout\n");
            continue;
        }
        
        for (int n = 0; n < nfds; n++) {
            if (events[n].events & EPOLLIN) {
                if (events[n].data.fd == STDIN_FILENO) {
                    ssize_t bytes_read;
                    while ((bytes_read = read(STDIN_FILENO, buffer, sizeof(buffer) - 1)) > 0) {
                        buffer[bytes_read] = '\0';
                        printf("epoll input: %s", buffer);
                        
                        if (strncmp(buffer, "quit", 4) == 0) {
                            close(epoll_fd);
                            return 0;
                        }
                    }
                    
                    if (bytes_read == -1) {
                        if (errno != EAGAIN && errno != EWOULDBLOCK) {
                            perror("read");
                        }
                    }
                }
            }
            
            if (events[n].events & (EPOLLERR | EPOLLHUP)) {
                printf("epoll error on fd %d\n", events[n].data.fd);
                close(epoll_fd);
                return 1;
            }
        }
    }
    
    close(epoll_fd);
    return 0;
}

4. 性能测试对比

4.1 基准测试代码

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/time.h>
#include <poll.h>
#include <sys/select.h>
#include <sys/epoll.h>
#include <fcntl.h>
#include <string.h>

#define TEST_ITERATIONS 10000
#define TEST_FDS 100

// 性能测试结构体
struct performance_test {
    const char *name;
    long long (*test_func)(int fd_count);
};

// select 性能测试
long long test_select_performance(int fd_count) {
    fd_set read_fds;
    struct timeval timeout = {0, 1000};  // 1ms 超时
    struct timeval start, end;
    
    gettimeofday(&start, NULL);
    
    for (int i = 0; i < TEST_ITERATIONS; i++) {
        FD_ZERO(&read_fds);
        FD_SET(STDIN_FILENO, &read_fds);
        
        select(STDIN_FILENO + 1, &read_fds, NULL, NULL, &timeout);
    }
    
    gettimeofday(&end, NULL);
    
    return (end.tv_sec - start.tv_sec) * 1000000LL + (end.tv_usec - start.tv_usec);
}

// poll 性能测试
long long test_poll_performance(int fd_count) {
    struct pollfd pfd;
    struct timeval start, end;
    
    pfd.fd = STDIN_FILENO;
    pfd.events = POLLIN;
    pfd.revents = 0;
    
    gettimeofday(&start, NULL);
    
    for (int i = 0; i < TEST_ITERATIONS; i++) {
        poll(&pfd, 1, 1);  // 1ms 超时
        pfd.revents = 0;
    }
    
    gettimeofday(&end, NULL);
    
    return (end.tv_sec - start.tv_sec) * 1000000LL + (end.tv_usec - start.tv_usec);
}

// 显示性能测试结果
void show_performance_results() {
    struct performance_test tests[] = {
        {"select", test_select_performance},
        {"poll", test_poll_performance},
        {NULL, NULL}
    };
    
    printf("=== 性能测试结果 (10000 次调用) ===\n");
    printf("%-10s %-15s %-15s\n", "机制", "耗时(微秒)", "平均耗时(纳秒)");
    printf("%-10s %-15s %-15s\n", "----", "----------", "--------------");
    
    for (int i = 0; tests[i].name; i++) {
        long long total_time = tests[i].test_func(TEST_FDS);
        double avg_time = (double)total_time * 1000.0 / TEST_ITERATIONS;
        
        printf("%-10s %-15lld %-15.2f\n", 
               tests[i].name, total_time, avg_time);
    }
    
    printf("\n性能特点:\n");
    printf("1. select: 有文件描述符数量限制，每次调用需要拷贝fd_set\n");
    printf("2. poll:   无文件描述符数量限制，但仍需遍历所有描述符\n");
    printf("3. epoll:  事件驱动，只处理活跃的描述符，性能最优\n");
    printf("4. ppoll:  提供更好的信号处理机制，避免竞态条件\n");
}

int main_performance_comparison() {
    printf("=== I/O 多路复用性能对比测试 ===\n\n");
    
    show_performance_results();
    
    printf("\n=== 实际应用建议 ===\n");
    printf("选择建议:\n");
    printf("1. 跨平台应用: 使用 select\n");
    printf("2. 中等并发(<1000): 使用 poll\n");
    printf("3. 高并发(>1000): 使用 epoll\n");
    printf("4. 需要信号处理: 使用 ppoll\n");
    printf("5. Linux 专用: 使用 epoll\n");
    
    return 0;
}

5. 实际应用场景分析

5.1 网络服务器场景

// 简单的 HTTP 服务器示例，展示不同机制的使用
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <string.h>
#include <poll.h>
#include <sys/epoll.h>

#define PORT 8080
#define MAX_CLIENTS 1000
#define BUFFER_SIZE 4096

// 创建监听套接字
int create_server_socket(int port) {
    int server_fd;
    struct sockaddr_in address;
    int opt = 1;
    
    if ((server_fd = socket(AF_INET, SOCK_STREAM, 0)) == 0) {
        perror("socket failed");
        return -1;
    }
    
    if (setsockopt(server_fd, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt))) {
        perror("setsockopt");
        close(server_fd);
        return -1;
    }
    
    address.sin_family = AF_INET;
    address.sin_addr.s_addr = INADDR_ANY;
    address.sin_port = htons(port);
    
    if (bind(server_fd, (struct sockaddr *)&address, sizeof(address)) < 0) {
        perror("bind failed");
        close(server_fd);
        return -1;
    }
    
    if (listen(server_fd, 3) < 0) {
        perror("listen");
        close(server_fd);
        return -1;
    }
    
    return server_fd;
}

// 处理 HTTP 请求
void handle_http_request(int client_fd) {
    char buffer[BUFFER_SIZE];
    ssize_t bytes_read = read(client_fd, buffer, sizeof(buffer) - 1);
    
    if (bytes_read > 0) {
        buffer[bytes_read] = '\0';
        
        // 简单的 HTTP 响应
        const char *response = 
            "HTTP/1.1 200 OK\r\n"
            "Content-Type: text/html\r\n"
            "Connection: close\r\n"
            "\r\n"
            "<html><body><h1>Hello from I/O Multiplexing Server!</h1></body></html>\r\n";
        
        write(client_fd, response, strlen(response));
    }
    
    close(client_fd);
}

// 使用 poll 的 HTTP 服务器
int http_server_poll(int port) {
    int server_fd, client_fd;
    struct sockaddr_in address;
    int addrlen = sizeof(address);
    struct pollfd *fds;
    int max_fds = MAX_CLIENTS + 1;
    int nfds = 1;
    
    printf("Starting HTTP server with poll on port %d\n", port);
    
    server_fd = create_server_socket(port);
    if (server_fd == -1) return -1;
    
    fds = calloc(max_fds, sizeof(struct pollfd));
    if (!fds) {
        perror("calloc");
        close(server_fd);
        return -1;
    }
    
    // 添加监听套接字
    fds[0].fd = server_fd;
    fds[0].events = POLLIN;
    fds[0].revents = 0;
    
    while (1) {
        int ready = poll(fds, nfds, 1000);  // 1秒超时
        
        if (ready == -1) {
            if (errno == EINTR) continue;
            perror("poll");
            break;
        }
        
        if (ready == 0) continue;  // 超时
        
        // 检查监听套接字
        if (fds[0].revents & POLLIN) {
            client_fd = accept(server_fd, (struct sockaddr *)&address, (socklen_t*)&addrlen);
            if (client_fd >= 0) {
                if (nfds < max_fds) {
                    fds[nfds].fd = client_fd;
                    fds[nfds].events = POLLIN;
                    fds[nfds].revents = 0;
                    nfds++;
                    printf("New connection from %s:%d\n", 
                           inet_ntoa(address.sin_addr), ntohs(address.sin_port));
                } else {
                    printf("Too many connections, rejecting\n");
                    close(client_fd);
                }
            }
        }
        
        // 检查客户端连接
        for (int i = 1; i < nfds; i++) {
            if (fds[i].revents & POLLIN) {
                handle_http_request(fds[i].fd);
                // 移除已处理的连接
                for (int j = i; j < nfds - 1; j++) {
                    fds[j] = fds[j + 1];
                }
                nfds--;
                i--;  // 重新检查当前位置
            }
        }
        
        // 重置 revents
        for (int i = 0; i < nfds; i++) {
            fds[i].revents = 0;
        }
    }
    
    free(fds);
    close(server_fd);
    return 0;
}

// 使用 epoll 的 HTTP 服务器
int http_server_epoll(int port) {
    int server_fd, client_fd, epoll_fd;
    struct sockaddr_in address;
    int addrlen = sizeof(address);
    struct epoll_event ev, events[MAX_CLIENTS];
    int nfds;
    
    printf("Starting HTTP server with epoll on port %d\n", port);
    
    server_fd = create_server_socket(port);
    if (server_fd == -1) return -1;
    
    epoll_fd = epoll_create1(0);
    if (epoll_fd == -1) {
        perror("epoll_create1");
        close(server_fd);
        return -1;
    }
    
    // 添加监听套接字到 epoll
    ev.events = EPOLLIN;
    ev.data.fd = server_fd;
    if (epoll_ctl(epoll_fd, EPOLL_CTL_ADD, server_fd, &ev) == -1) {
        perror("epoll_ctl: listen");
        close(server_fd);
        close(epoll_fd);
        return -1;
    }
    
    while (1) {
        nfds = epoll_wait(epoll_fd, events, MAX_CLIENTS, 1000);  // 1秒超时
        
        if (nfds == -1) {
            if (errno == EINTR) continue;
            perror("epoll_wait");
            break;
        }
        
        if (nfds == 0) continue;  // 超时
        
        for (int i = 0; i < nfds; i++) {
            if (events[i].data.fd == server_fd) {
                // 新连接
                client_fd = accept(server_fd, (struct sockaddr *)&address, (socklen_t*)&addrlen);
                if (client_fd >= 0) {
                    ev.events = EPOLLIN | EPOLLET;
                    ev.data.fd = client_fd;
                    if (epoll_ctl(epoll_fd, EPOLL_CTL_ADD, client_fd, &ev) == -1) {
                        perror("epoll_ctl: client");
                        close(client_fd);
                    } else {
                        printf("New connection from %s:%d\n", 
                               inet_ntoa(address.sin_addr), ntohs(address.sin_port));
                    }
                }
            } else {
                // 客户端数据
                handle_http_request(events[i].data.fd);
                epoll_ctl(epoll_fd, EPOLL_CTL_DEL, events[i].data.fd, NULL);
            }
        }
    }
    
    close(epoll_fd);
    close(server_fd);
    return 0;
}

6. 最佳实践和使用建议

6.1 选择指南

// 根据应用场景选择合适的 I/O 多路复用机制

/*
选择决策树:

1. 是否需要跨平台支持?
   - 是 -> 选择 select
   - 否 -> 继续下一步

2. 操作系统是什么?
   - Windows -> 选择 select 或 IOCP
   - Linux -> 继续下一步

3. 并发连接数是多少?
   - < 100 -> select 或 poll 都可以
   - 100-1000 -> poll
   - > 1000 -> epoll

4. 是否需要特殊的信号处理?
   - 是 -> ppoll
   - 否 -> 继续下一步

5. 性能要求如何?
   - 高性能 -> epoll
   - 一般 -> poll
*/

// 配置结构体
struct io_multiplexing_config {
    enum {
        IO_SELECT,
        IO_POLL,
        IO_PPOLL,
        IO_EPOLL
    } method;
    
    int max_connections;
    int timeout_ms;
    int edge_triggered;  // 仅对 epoll 有效
    int signal_safe;    // 是否需要信号安全
};

// 根据配置推荐机制
const char* recommend_io_method(const struct io_multiplexing_config *config) {
    if (config->method != 0) {
        // 明确指定了方法
        switch (config->method) {
            case IO_SELECT: return "select";
            case IO_POLL: return "poll";
            case IO_PPOLL: return "ppoll";
            case IO_EPOLL: return "epoll";
        }
    }
    
    // 根据配置自动推荐
    if (config->signal_safe) {
        return "ppoll";
    }
    
    if (config->max_connections > 1000) {
        return "epoll";
    }
    
    if (config->max_connections > 100) {
        return "poll";
    }
    
    return "select";
}

// 显示推荐结果
void show_recommendation(const struct io_multiplexing_config *config) {
    printf("=== I/O 多路复用机制推荐 ===\n");
    printf("配置参数:\n");
    printf("  最大连接数: %d\n", config->max_connections);
    printf("  超时时间: %d ms\n", config->timeout_ms);
    printf("  边缘触发: %s\n", config->edge_triggered ? "是" : "否");
    printf("  信号安全: %s\n", config->signal_safe ? "是" : "否");
    printf("\n");
    printf("推荐机制: %s\n", recommend_io_method(config));
    printf("\n");
}

6.2 错误处理最佳实践

// 安全的 I/O 多路复用封装
typedef struct {
    int fd;
    void *data;
    int (*read_handler)(int fd, void *data);
    int (*write_handler)(int fd, void *data);
    int (*error_handler)(int fd, void *data);
} io_handler_t;

// 通用的错误处理函数
int handle_io_errors(int fd, int revents, const char *context) {
    if (revents & (POLLERR | POLLHUP | POLLNVAL)) {
        fprintf(stderr, "Error on fd %d in %s: ", fd, context);
        
        if (revents & POLLERR) {
            fprintf(stderr, "POLLERR ");
        }
        if (revents & POLLHUP) {
            fprintf(stderr, "POLLHUP ");
        }
        if (revents & POLLNVAL) {
            fprintf(stderr, "POLLNVAL ");
        }
        fprintf(stderr, "\n");
        
        return -1;
    }
    return 0;
}

// 安全的 poll 封装
int safe_poll(struct pollfd *fds, nfds_t nfds, int timeout_ms) {
    if (!fds || nfds == 0) {
        errno = EINVAL;
        return -1;
    }
    
    int result;
    do {
        result = poll(fds, nfds, timeout_ms);
    } while (result == -1 && errno == EINTR);
    
    return result;
}

// 安全的 ppoll 封装
int safe_ppoll(struct pollfd *fds, nfds_t nfds,
               const struct timespec *timeout_ts,
               const sigset_t *sigmask) {
    if (!fds || nfds == 0) {
        errno = EINVAL;
        return -1;
    }
    
    int result;
    do {
        result = ppoll(fds, nfds, timeout_ts, sigmask);
    } while (result == -1 && errno == EINTR);
    
    return result;
}

// 安全的 epoll 封装
int safe_epoll_wait(int epfd, struct epoll_event *events,
                    int maxevents, int timeout) {
    if (!events || maxevents <= 0) {
        errno = EINVAL;
        return -1;
    }
    
    int result;
    do {
        result = epoll_wait(epfd, events, maxevents, timeout);
    } while (result == -1 && errno == EINTR);
    
    return result;
}

7. 完整的综合示例

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <poll.h>
#include <sys/select.h>
#include <sys/epoll.h>
#include <signal.h>
#include <time.h>
#include <errno.h>
#include <string.h>

// 综合测试结构体
struct comprehensive_test {
    const char *name;
    void (*test_func)(void);
    int supported;
};

// 综合性能测试
void comprehensive_performance_test() {
    printf("=== 综合性能测试 ===\n");
    
    // 测试不同文件描述符数量下的性能
    int test_sizes[] = {10, 50, 100, 500, 1000};
    int num_tests = sizeof(test_sizes) / sizeof(test_sizes[0]);
    
    printf("%-10s %-10s %-15s %-15s %-15s\n", 
           "机制", "FD数量", "select(μs)", "poll(μs)", "epoll(μs)");
    printf("%-10s %-10s %-15s %-15s %-15s\n", 
           "----", "------", "----------", "---------", "----------");
    
    for (int i = 0; i < num_tests; i++) {
        int fd_count = test_sizes[i];
        // 这里简化处理，实际应该进行真实的时间测量
        printf("%-10s %-10d %-15d %-15d %-15d\n",
               "测试", fd_count,
               fd_count * 2,    // select 模拟时间
               fd_count * 1.5,  // poll 模拟时间
               fd_count * 0.5); // epoll 模拟时间
    }
}

// 实际使用场景演示
void practical_usage_scenarios() {
    printf("\n=== 实际使用场景 ===\n");
    
    printf("1. Web 服务器:\n");
    printf("   - 高并发: 推荐使用 epoll\n");
    printf("   - 中等并发: 可以使用 poll\n");
    printf("   - 简单场景: select 也足够\n");
    
    printf("\n2. 数据库连接池:\n");
    printf("   - 连接数较少: poll 或 select\n");
    printf("   - 连接数较多: epoll\n");
    printf("   - 需要信号处理: ppoll\n");
    
    printf("\n3. 实时通信应用:\n");
    printf("   - 聊天服务器: epoll (支持边缘触发)\n");
    printf("   - 游戏服务器: epoll (高性能)\n");
    printf("   - 需要精确信号处理: ppoll\n");
    
    printf("\n4. 系统监控工具:\n");
    printf("   - 文件监控: poll (简单可靠)\n");
    printf("   - 网络监控: epoll (高性能)\n");
    printf("   - 需要信号处理: ppoll\n");
}

// 移植性考虑
void portability_considerations() {
    printf("\n=== 移植性考虑 ===\n");
    
    printf("跨平台支持:\n");
    printf("1. select: 几乎所有 Unix-like 系统都支持\n");
    printf("2. poll: POSIX 标准，广泛支持\n");
    printf("3. ppoll: Linux 特有 (2.6.16+)\n");
    printf("4. epoll: Linux 特有 (2.5.44+)\n");
    
    printf("\n条件编译示例:\n");
    printf("#ifdef __linux__\n");
    printf("    // 使用 epoll\n");
    printf("#elif defined(__FreeBSD__) || defined(__APPLE__)\n");
    printf("    // 使用 kqueue\n");
    printf("#else\n");
    printf("    // 使用 poll 或 select\n");
    printf("#endif\n");
}

int main() {
    printf("=== Linux I/O 多路复用机制综合分析 ===\n\n");
    
    // 性能测试
    comprehensive_performance_test();
    
    // 实际使用场景
    practical_usage_scenarios();
    
    // 移植性考虑
    portability_considerations();
    
    printf("\n=== 总结 ===\n");
    printf("1. select: 简单可靠，跨平台性好，但有 FD 数量限制\n");
    printf("2. poll:   无 FD 限制，API 清晰，适合中等并发\n");
    printf("3. ppoll:  增强的信号处理，避免竞态条件，Linux 特有\n");
    printf("4. epoll:  性能最优，事件驱动，Linux 特有\n");
    printf("\n");
    printf("选择建议:\n");
    printf("- 新项目且只运行在 Linux: 首选 epoll\n");
    printf("- 需要跨平台支持: 使用 poll 或 select\n");
    printf("- 需要特殊信号处理: 考虑 ppoll\n");
    printf("- 简单应用场景: select 也足够\n");
    
    return 0;
}

8. 编译和运行说明

# 编译所有示例
gcc -o select_example example1.c
gcc -o poll_example example2.c
gcc -o ppoll_example example3.c -D_GNU_SOURCE
gcc -o epoll_example example4.c
gcc -o performance_test performance_test.c
gcc -o comprehensive_analysis comprehensive.c

# 运行示例
./select_example
./poll_example
./ppoll_example
./epoll_example
./performance_test
./comprehensive_analysis

# 测试不同场景
echo "Testing select with 100 FDs..."
./select_example 100

echo "Testing epoll with high concurrency..."
./epoll_example 1000

echo "Running comprehensive analysis..."
./comprehensive_analysis

9. 系统要求检查

# 检查内核版本
uname -r

# 检查 glibc 版本
ldd --version

# 检查 epoll 支持
grep -w epoll /usr/include/linux/eventpoll.h

# 检查 ppoll 支持
grep -w ppoll /usr/include/asm/unistd_64.h

# 查看系统调用限制
ulimit -n  # 文件描述符限制
cat /proc/sys/fs/file-max  # 系统最大文件描述符

10. 最佳实践总结

// 1. 错误处理模板
int robust_io_multiplexing() {
    struct pollfd *fds = NULL;
    int max_fds = 1024;
    int nfds = 0;
    
    // 分配内存
    fds = malloc(max_fds * sizeof(struct pollfd));
    if (!fds) {
        return -1;
    }
    
    // 初始化
    memset(fds, 0, max_fds * sizeof(struct pollfd));
    
    // 主循环
    while (1) {
        int ready;
        
        // 使用安全的 poll 调用
        do {
            ready = poll(fds, nfds, 1000);  // 1秒超时
        } while (ready == -1 && errno == EINTR);
        
        if (ready == -1) {
            if (errno != EINTR) {
                perror("poll error");
                break;
            }
            continue;
        }
        
        if (ready == 0) {
            // 超时处理
            continue;
        }
        
        // 处理事件
        for (int i = 0; i < nfds; i++) {
            if (fds[i].revents != 0) {
                // 检查错误
                if (handle_io_errors(fds[i].fd, fds[i].revents, "main loop") == -1) {
                    // 处理错误连接
                    continue;
                }
                
                // 处理正常事件
                if (fds[i].revents & POLLIN) {
                    // 处理可读事件
                }
                
                if (fds[i].revents & POLLOUT) {
                    // 处理可写事件
                }
            }
        }
    }
    
    // 清理资源
    if (fds) {
        free(fds);
    }
    
    return 0;
}

// 2. 资源管理模板
typedef struct {
    int epoll_fd;
    int *client_fds;
    int client_count;
    int max_clients;
} server_context_t;

int init_server_context(server_context_t *ctx, int max_clients) {
    ctx->epoll_fd = -1;
    ctx->client_fds = NULL;
    ctx->client_count = 0;
    ctx->max_clients = max_clients;
    
    // 创建 epoll
    ctx->epoll_fd = epoll_create1(0);
    if (ctx->epoll_fd == -1) {
        return -1;
    }
    
    // 分配客户端数组
    ctx->client_fds = malloc(max_clients * sizeof(int));
    if (!ctx->client_fds) {
        close(ctx->epoll_fd);
        ctx->epoll_fd = -1;
        return -1;
    }
    
    return 0;
}

void cleanup_server_context(server_context_t *ctx) {
    if (ctx->epoll_fd != -1) {
        close(ctx->epoll_fd);
        ctx->epoll_fd = -1;
    }
    
    if (ctx->client_fds) {
        free(ctx->client_fds);
        ctx->client_fds = NULL;
    }
    
    ctx->client_count = 0;
}

通过以上详细的对比分析和示例代码，我们可以清楚地看到各种 I/O 多路复用机制的特点和适用场景。选择合适的机制对于构建高性能的网络应用程序至关重要。

Linux I/O 多路复用机制对比分析poll/ppoll/epoll/select

发表在 linux文章 | 留下评论

静态链接 YARA 库方法

发表于2025-08-02由麦芽爸

如何静态链接 YARA 库，实现免依赖的独立可执行文件部署
适用于嵌入式设备、安全产品发布、或避免目标系统安装 YARA 共享库的场景。

✅ 目标

编译 YARA 为 静态库（.a）
使用静态库编译你的 C 程序
生成 完全静态链接的可执行文件（不依赖 libyara.so）
实现“拷贝即运行”的免依赖部署

🧰 一、环境准备（以 Linux 为例）

推荐在干净的构建环境中操作（如 Ubuntu 20.04/22.04）：

sudo apt-get update
sudo apt-get install build-essential autoconf automake libtool pkg-config

🔧 二、从源码编译 YARA（静态库模式）

1. 下载 YARA 源码

git clone https://github.com/VirusTotal/yara.git
cd yara
git checkout v4.3.2  # 推荐稳定版本（或最新 v4.x）

✅ 注意：静态编译需关闭动态库生成，开启静态库。

2. 配置并编译（仅静态库）

./bootstrap.sh          # 第一次需要生成 configure 脚本
./configure \
    --enable-static \
    --disable-shared \
    --disable-magic \
    --without-crypto \
    --prefix=/usr/local

参数说明：

参数	说明
`--enable-static`	生成 `.a` 静态库
`--disable-shared`	禁止生成 `.so` 动态库
`--disable-magic`	禁用 libmagic（避免额外依赖）
`--without-crypto`	禁用 OpenSSL（`hash.md5` 等模块）
`--prefix`	安装路径

⚠️ 如果你需要 hash 模块（如 hash.md5），需安装 OpenSSL 并启用：
sudo apt-get install libssl-dev
./configure ... --with-crypto

3. 编译并安装

make -j$(nproc)
sudo make install

安装后你会看到：

静态库：/usr/local/lib/libyara.a
头文件：/usr/local/include/yara.h, /usr/local/include/yara/*

📦 三、编写测试程序（复用之前的示例）

保存为 yara_static.c：

#include <stdio.h>
#include <yara.h>

int callback(YR_SCAN_CONTEXT* context, int msg, void* data, void* user_data)
{
    if (msg == CALLBACK_MSG_RULE_MATCHING)
    {
        printf("✅ 匹配规则: %s\n", ((YR_RULE*)data)->identifier);
    }
    return CALLBACK_CONTINUE;
}

int main()
{
    YR_COMPILER* compiler;
    YR_RULES* rules;
    FILE* fh;

    yr_initialize();

    yr_compiler_create(&compiler);
    fh = fopen("test.yar", "r");
    if (!fh) { perror("规则文件"); return 1; }

    yr_compiler_add_file(compiler, fh, NULL, NULL);

    if (compiler->errors > 0) {
        printf("规则编译失败\n");
        return 1;
    }

    yr_compiler_get_rules(compiler, &rules);
    fclose(fh);

    // 扫描自身（文本匹配）
    yr_rules_scan_file(rules, "yara_static.c", 0, callback, NULL, 0);

    yr_rules_destroy(rules);
    yr_compiler_destroy(compiler);
    yr_finalize();

    return 0;
}

🔗 四、静态编译你的程序

gcc -o yara_static yara_static.c \
    -I/usr/local/include \
    /usr/local/lib/libyara.a \
    -lpthread -lm -lz

关键点说明：

库	为什么需要
`libyara.a`	YARA 静态库（主逻辑）
`-lpthread`	YARA 使用线程
`-lm`	数学函数（某些模块使用）
`-lz`	zlib，用于处理压缩或内存操作

✅ 此时生成的 yara_static 是 完全静态链接 的可执行文件（不依赖任何外部 .so）。

🔍 五、验证是否静态链接成功

# 检查是否依赖动态库
ldd yara_static

✅ 正确输出应为：

not a dynamic executable

或：

statically linked

❌ 如果显示 libyara.so，说明仍动态链接了，需检查编译命令。

🧪 六、测试运行

创建规则文件 test.yar：

rule FoundCFile
{
    strings:
        $main = "main()" ascii
    condition:
        $main
}

运行：

./yara_static

输出：

✅ 匹配规则: FoundCFile

🚀 七、跨平台静态编译（可选：生成 Windows 版）

你可以使用 交叉编译 生成 Windows 静态可执行文件（.exe）：

安装交叉编译器（Ubuntu）

sudo apt-get install gcc-mingw-w64

重新编译 YARA（Windows 静态库）

# 在 yara 源码目录
make clean

CC=x86_64-w64-mingw32-gcc \
CFLAGS="-static" \
./configure \
    --host=x86_64-w64-mingw32 \
    --enable-static \
    --disable-shared \
    --disable-magic \
    --without-crypto \
    --prefix=/tmp/yara-win64

make && make install

编译 Windows 可执行文件

x86_64-w64-mingw32-gcc -o yara.exe yara_static.c \
    -I/tmp/yara-win64/include \
    /tmp/yara-win64/lib/libyara.a \
    -lpthread -lm -lz -static

生成的 yara.exe 可在 Windows 上直接运行，无需安装任何依赖！

📦 八、部署建议

场景	建议
安全网关/EDR	静态链接，嵌入扫描引擎
嵌入式设备	使用 `musl-gcc` 编译更小体积
分析工具发布	打包为单文件工具（如 `yara-scan.exe`）
容器内运行	无需安装 `libyara`，减少镜像体积

📏 九、生成文件大小优化（可选）

静态链接后体积较大（~2-5MB），可通过以下方式减小：

# 1. 编译时优化
gcc -Os -s -DNDEBUG ...  # 启用优化、去符号、关闭调试

# 2. 去除符号表
strip --strip-all yara_static

# 3. 使用 upx 压缩（可选）
upx --best --compress-exports=0 yara_static

可将 3MB → 1MB 左右。

✅ 总结：静态链接 YARA 的完整流程

# 1. 编译 YARA 静态库
./bootstrap.sh
./configure --enable-static --disable-shared --without-crypto
make && sudo make install

# 2. 编译你的程序（静态链接）
gcc -o myscanner myscan.c /usr/local/lib/libyara.a -lpthread -lm -lz -static

# 3. 验证
ldd myscanner  # 应显示 not a dynamic executable

# 4. 部署到任意 Linux 主机，无需安装 YARA

📎 附件：一键构建脚本（build_static_yara.sh）

#!/bin/bash
git clone https://github.com/VirusTotal/yara.git
cd yara
git checkout v4.3.2

./bootstrap.sh
./configure --enable-static --disable-shared --disable-magic --without-crypto --prefix=/usr/local
make -j$(nproc)
sudo make install

echo "✅ YARA 静态库已安装"
echo "现在你可以使用 /usr/local/lib/libyara.a 进行静态编译"

静态链接 YARA 库方法, 静态链接 YARA 实现独立可执行文件, YARA 库静态链接教程, 如何静态链接 YARA 库, YARA 静态编译方法, 嵌入式设备 YARA 部署方案, 安全产品 YARA 依赖优化, 避免依赖 YARA 库的解决方案, YARA 库免依赖部署指南, 静态链接 YARA 用于安全产品

发表在 linux文章 | 留下评论

YARA 的C语言完整集成与开发方法

发表于2025-08-02由麦芽爸

以下是 YARA 的 C 语言完整集成与开发方法，包括：

YARA C API 的使用
规则编译、文件扫描、回调处理
完整的 C 示例代码
编译与链接方法
高级用法（自定义外部变量、模块支持等）

🧰 一、前置条件

1. 安装 YARA 开发库

Ubuntu/Debian

sudo apt-get install libyara-dev yara

CentOS/RHEL

sudo yum install yara-devel
# 或使用 dnf（新版本）
sudo dnf install yara-devel

macOS

brew install yara

确保 yara 命令可用，并且头文件（yara.h）和库文件（libyara.so / libyara.a）已安装。

📦 二、YARA C API 核心概念

YARA C API 主要包含以下组件：

组件	说明
`YR_COMPILER`	用于编译 YARA 规则
`YR_RULES`	编译后的规则集合
`yr_rules_scan_*(...)`	扫描文件/内存/文件描述符
`YR_CALLBACK_FUNC`	匹配回调函数（接收匹配结果）

🧪 三、完整 C 示例代码：扫描文件并输出匹配结果

文件：`yara_scan.c`

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <yara.h>

// 回调函数：处理匹配结果
int callback_function(YR_SCAN_CONTEXT* context, int message, void* message_data, void* user_data)
{
    YR_RULE* rule;
    YR_STRING* string;
    YR_MATCH* match;

    switch (message)
    {
        case CALLBACK_MSG_RULE_MATCHING:
            rule = (YR_RULE*) message_data;
            printf("[+] 匹配规则: %s", rule->identifier);

            if (rule->tags[0] != NULL)
            {
                printf(" (标签: ");
                for (int i = 0; rule->tags[i] != NULL; i++)
                {
                    if (i > 0) printf(", ");
                    printf("%s", rule->tags[i]);
                }
                printf(")");
            }
            printf("\n");

            // 打印匹配的字符串
            yr_rule_strings_foreach(rule, string)
            {
                yr_string_matches_foreach(context, string, match)
                {
                    printf("    ├─ 字符串: %s = \"%.*s\" @ 0x%llx\n",
                           string->identifier,
                           match->data_length,
                           match->data,
                           match->base + match->offset);
                }
            }
            break;

        case CALLBACK_MSG_RULE_NOT_MATCHING:
            // 可选：打印未匹配的规则
            // rule = (YR_RULE*) message_data;
            // printf("[-] 未匹配: %s\n", rule->identifier);
            break;

        case CALLBACK_MSG_SCAN_FINISHED:
            // 扫描完成
            break;

        default:
            break;
    }

    return CALLBACK_CONTINUE;  // 继续扫描
}

int main(int argc, char** argv)
{
    if (argc != 3)
    {
        fprintf(stderr, "用法: %s <规则文件.yar> <目标文件>\n", argv[0]);
        return 1;
    }

    const char* rules_file = argv[1];
    const char* target_file = argv[2];

    YR_COMPILER* compiler = NULL;
    YR_RULES* rules = NULL;
    FILE* rule_fh = NULL;
    int result;

    // 初始化 YARA
    yr_initialize();

    // 创建编译器
    result = yr_compiler_create(&compiler);
    if (result != ERROR_SUCCESS)
    {
        fprintf(stderr, "无法创建编译器: %d\n", result);
        goto cleanup;
    }

    // 打开规则文件
    rule_fh = fopen(rules_file, "r");
    if (!rule_fh)
    {
        perror("无法打开规则文件");
        result = -1;
        goto cleanup;
    }

    // 编译规则（从文件）
    yr_compiler_add_file(compiler, rule_fh, NULL, rules_file);

    // 检查编译错误
    if (compiler->errors > 0)
    {
        fprintf(stderr, "规则编译失败！\n");
        goto cleanup;
    }

    // 获取编译后的规则
    result = yr_compiler_get_rules(compiler, &rules);
    if (result != ERROR_SUCCESS)
    {
        fprintf(stderr, "无法获取规则: %d\n", result);
        goto cleanup;
    }

    // 扫描目标文件
    printf("🔍 开始扫描文件: %s\n", target_file);
    result = yr_rules_scan_file(rules, target_file, 0, callback_function, NULL, 0);

    if (result != ERROR_SUCCESS)
    {
        fprintf(stderr, "扫描失败: %d\n", result);
    }

cleanup:
    // 清理资源
    if (rule_fh) fclose(rule_fh);
    if (rules) yr_rules_destroy(rules);
    if (compiler) yr_compiler_destroy(compiler);
    yr_finalize();

    return result == ERROR_SUCCESS ? 0 : 1;
}

🔧 四、编写测试 YARA 规则文件

文件：`test.yar`

rule HelloWorldRule
{
    tags: test demo

    strings:
        $greeting = "Hello, World!" ascii
        $number = { 48 65 6C 6C 6F }  // "Hello" in hex

    condition:
        all of them
}

🛠️ 五、编译 C 程序

方法 1：使用 gcc 直接编译

gcc -o yara_scan yara_scan.c -lyara

如果提示找不到 -lyara，请确认 libyara.so 在 /usr/lib 或 /usr/local/lib。

方法 2：指定路径（如自定义安装）

gcc -o yara_scan yara_scan.c \
    -I/usr/local/include \
    -L/usr/local/lib \
    -lyara

▶️ 六、运行测试

# 创建测试文件
echo "Hello, World!" > test.txt

# 编译并运行
gcc -o yara_scan yara_scan.c -lyara
./yara_scan test.yar test.txt

预期输出：

🔍 开始扫描文件: test.txt
[+] 匹配规则: HelloWorldRule (标签: test, demo)
    ├─ 字符串: $greeting = "Hello, World!" @ 0x0
    ├─ 字符串: $number = "Hello" @ 0x0

⚙️ 七、高级功能集成

1. 使用外部变量（External Variables）

修改规则：

rule HasKeyword
{
    condition:
        contains(text, keyword)
}

在 C 中设置外部变量：

YR_EXTERNAL_VARIABLE ext_vars[] = {
    { .identifier = "keyword", .type = YE_STRING, .value = {.ss = "malware"} },
    { .identifier = "text",    .type = YE_STRING, .value = {.ss = "this is a malware sample"} },
    { .identifier = NULL }  // 结束标记
};

// 扫描时传入
yr_rules_scan_mem(..., callback, NULL, 0, ext_vars);

2. 扫描内存缓冲区

char buffer[] = "Hello, World!";
size_t buffer_len = strlen(buffer);

yr_rules_scan_mem(rules, buffer, buffer_len, 0, callback_function, NULL, 0);

3. 启用内置模块（如 `hash`, `pe`, `elf`）

// 启用 PE 模块
yr_rules_load(rules, "compiled_rules.bin");  // 可选：保存编译后的规则
yr_initialize();

// 启用模块（必须在扫描前）
yr_enable_features(YARA_FEATURE_EXTERNAL_VARIABLES | YARA_FEATURE_MODULES);

// 或使用宏控制
#define YR_ENABLE_CRYPTO

注意：使用 pe, hash 等模块需在编译 YARA 时启用对应功能。

📁 八、保存/加载编译后的规则（提高性能）

// 保存编译后的规则到文件
yr_rules_save(rules, "compiled.yarc");

// 加载已编译规则
YR_RULES* loaded_rules;
yr_rules_load("compiled.yarc", &loaded_rules);

// 直接扫描
yr_rules_scan_file(loaded_rules, target_file, 0, callback, NULL, 0);

// 销毁
yr_rules_destroy(loaded_rules);

适用于规则不变、频繁扫描的场景（如安全网关、EDR）。

🧩 九、常见错误与解决

错误	原因	解决
`undefined reference to 'yr_initialize'`	未链接 `-lyara`	添加 `-lyara`
`cannot open shared object libyara.so`	动态库未找到	`sudo ldconfig` 或设置 `LD_LIBRARY_PATH`
编译规则失败	语法错误	使用 `yara test.yar /bin/ls` 测试规则
内存扫描崩溃	缓冲区为空或未初始化	检查指针和长度

📚 十、官方文档与资源

YARA C API 文档：https://yara.readthedocs.io/en/stable/capi.html
头文件参考：/usr/include/yara.h
示例代码：https://github.com/VirusTotal/yara/tree/master/tests
YARA 构建说明：https://github.com/VirusTotal/yara#building-from-sources

✅ 总结

通过 C 语言集成 YARA，你可以：

将 YARA 深度嵌入到安全产品中（如杀毒引擎、EDR、防火墙）
实现高性能、低延迟的实时扫描
与自定义解析器、沙箱、驱动联动
支持跨平台（Linux、Windows、macOS）

发表在 linux文章 | 留下评论

Flask+YARA-Python实现文件扫描功能

发表于2025-08-02由麦芽爸

以下是一个 完整的 Web API 示例，使用 Flask + YARA-Python 实现文件扫描功能，支持上传文件并返回 YARA 规则匹配结果。

✅ 功能说明

提供一个 /scan 接口，支持文件上传
使用预加载的 YARA 规则进行扫描
返回 JSON 格式的匹配结果
支持多规则、可扩展

📦 项目结构

yara-flask-api/
├── app.py                  # Flask 主程序
├── rules/                  # YARA 规则目录
│   ├── hello.yar
│   └── suspicious_pe.yar
├── uploads/                # 临时存储上传文件（可选）
└── requirements.txt

1. 安装依赖

创建 requirements.txt：

flask
yara-python

安装：

pip install -r requirements.txt

确保系统已安装 YARA 开发库：

Ubuntu: sudo apt-get install yara libyara-dev

macOS: brew install yara

2. 编写 YARA 规则

`rules/hello.yar`

rule ContainsHello
{
    strings:
        $hello = "Hello" ascii nocase
    condition:
        $hello
}

`rules/suspicious_pe.yar`

import "pe"

rule SuspiciousPEScan
{
    meta:
        description = "Detects common suspicious PE imports"

    strings:
        $create_remote_thread = "CreateRemoteThread" fullword ascii
        $write_process_memory = "WriteProcessMemory" fullword ascii

    condition:
        pe.is_pe and
        any of them
}

3. Flask Web API 主程序 (`app.py`)

import os
import yara
from flask import Flask, request, jsonify
from werkzeug.utils import secure_filename

# 初始化 Flask 应用
app = Flask(__name__)
app.config['UPLOAD_FOLDER'] = 'uploads'
app.config['MAX_CONTENT_LENGTH'] = 10 * 1024 * 1024  # 10MB 限制

# 确保目录存在
os.makedirs(app.config['UPLOAD_FOLDER'], exist_ok=True)
os.makedirs('rules', exist_ok=True)

# 编译所有 .yar 规则
def load_yara_rules():
    try:
        rule_files = {}
        for filename in os.listdir('rules'):
            if filename.endswith('.yar'):
                filepath = os.path.join('rules', filename)
                rule_files[f"rule_{filename}"] = filepath
        rules = yara.compile(filepaths=rule_files)
        print(f"[+] 成功加载 {len(rule_files)} 条 YARA 规则")
        return rules
    except yara.Error as e:
        print(f"[-] YARA 规则编译失败: {e}")
        return None

# 全局加载规则
yara_rules = load_yara_rules()

if not yara_rules:
    print("[-] 无法启动：YARA 规则加载失败")
    exit(1)

# 根路径
@app.route('/')
def index():
    return '''
    <h3>YARA 扫描 API 服务</h3>
    <p>使用 POST /scan 上传文件进行扫描</p>
    '''

# 扫描接口
@app.route('/scan', methods=['POST'])
def scan_file():
    if 'file' not in request.files:
        return jsonify({"error": "未提供文件字段 'file'"}), 400

    file = request.files['file']
    if file.filename == '':
        return jsonify({"error": "未选择文件"}), 400

    if file:
        filename = secure_filename(file.filename)
        filepath = os.path.join(app.config['UPLOAD_FOLDER'], filename)
        file.save(filepath)

        try:
            # 执行 YARA 扫描
            matches = yara_rules.match(filepath)

            result = {
                "filename": filename,
                "matches": []
            }

            for match in matches:
                indicators = []
                for string in match.strings:
                    indicators.append({
                        "offset": f"0x{string[0]:X}",
                        "identifier": string[1],
                        "data": string[2].decode('utf-8', errors='replace')
                    })
                result["matches"].append({
                    "rule": match.rule,
                    "tags": match.tags,
                    "indicators": indicators
                })

            os.remove(filepath)  # 扫描后删除文件（可选）
            return jsonify(result), 200

        except Exception as e:
            os.remove(filepath)
            return jsonify({"error": f"扫描出错: {str(e)}"}), 500

    return jsonify({"error": "未知错误"}), 500


# 启动服务
if __name__ == '__main__':
    print("🚀 启动 YARA 扫描服务 http://127.0.0.1:5000")
    app.run(host='0.0.0.0', port=5000, debug=False)

4. 启动服务

python app.py

服务将运行在：http://127.0.0.1:5000

5. 测试 API（使用 curl）

测试文本文件

echo "Hello, this is a test." > test.txt
curl -X POST -F "file=@test.txt" http://127.0.0.1:5000/scan

✅ 预期输出（匹配 ContainsHello）：

{
  "filename": "test.txt",
  "matches": [
    {
      "rule": "ContainsHello",
      "tags": [],
      "indicators": [
        {
          "offset": "0x0",
          "identifier": "$hello",
          "data": "Hello"
        }
      ]
    }
  ]
}

测试 PE 文件（如 exe）

curl -X POST -F "file=@malware.exe" http://127.0.0.1:5000/scan

如果该 PE 文件调用了 CreateRemoteThread，会触发 SuspiciousPEScan 规则。

总结

这个 Flask + YARA 的 Web API 示例可以：

快速集成到 SOC、EDR、文件网关等系统
用于自动化恶意软件检测流水线
作为威胁情报分析的后端引擎

Flask YARA 文件扫描实现, Flask Web API 文件检测示例, YARA-Python 文件分析教程, 使用 Flask 和 YARA 开发扫描工具, Flask 集成 YARA 实现恶意文件检测, Python YARA 文件扫描代码, Web API 文件扫描 Flask 实现, YARA-Python 恶意软件检测方法, Flask 构建文件扫描服务教程, Python 实现文件内容匹配技术

发表在 linux文章 | 留下评论

识别和分类恶意软件样本的工具YARA

发表于2025-08-02由麦芽爸

YARA: A Tool for Identifying and Classifying Malware Samples

YARA 是一个用于识别和分类恶意软件样本的工具，广泛应用于恶意软件分析、威胁情报、入侵检测等领域。它通过编写规则（YARA Rules）来匹配文件中的特定字符串、十六进制模式、正则表达式等特征。

一、YARA 的基本使用方法

1. 安装 YARA

Linux（Ubuntu/Debian）

sudo apt-get install yara

macOS

brew install yara

Python 安装（推荐用于集成）

pip install yara-python

注意：yara-python 是 YARA 的 Python 绑定，允许你在 Python 脚本中使用 YARA。

friend link：(2 封私信) YARA-规则匹配神器-简单使用篇 – 知乎

Yara规则安装和使用学习-RedLine编写Yara检测-先知社区

github：https://github.com/VirusTotal/yara

2. 编写 YARA 规则（.yar 文件）

创建一个简单的 YARA 规则文件，例如 example.yar：

rule HelloWorld
{
    meta:
        author = "YourName"
        description = "Detects the string 'Hello, World!'"

    strings:
        $hello = "Hello, World!" ascii

    condition:
        $hello
}

3. 使用命令行运行 YARA

yara example.yar target_file.txt

如果 target_file.txt 中包含 Hello, World!，则会输出：

HelloWorld target_file.txt

二、YARA 集成到 Python 脚本（示例 Demo）

示例：使用 `yara-python` 扫描文件

import yara

# 编译规则
rules = yara.compile(filepath='example.yar')

# 扫描目标文件
matches = rules.match('target_file.txt')

# 输出结果
if matches:
    print("匹配到规则：")
    for match in matches:
        print(match)
else:
    print("未匹配到任何规则")

示例：从字符串加载规则（无需文件）

import yara

# 直接在代码中定义规则
rule_source = '''
rule HelloWorld
{
    strings:
        $hello = "Hello, World!" ascii
    condition:
        $hello
}
'''

# 编译规则
rules = yara.compile(source=rule_source)

# 扫描文件
matches = rules.match('target_file.txt')
print(matches)

示例：扫描目录中的所有文件

import yara
import os

def scan_directory(directory, rules):
    for root, dirs, files in os.walk(directory):
        for file in files:
            filepath = os.path.join(root, file)
            try:
                matches = rules.match(filepath)
                if matches:
                    print(f"[+] 匹配: {filepath} -> {matches}")
            except Exception as e:
                print(f"[-] 错误扫描 {filepath}: {e}")

# 加载规则
rules = yara.compile(filepath='example.yar')

# 扫描目录
scan_directory('/path/to/scan', rules)

三、高级 YARA 规则示例

检测 PE 文件中的特定导入函数（Windows 恶意软件常见）

import "pe"

rule SuspiciousPE
{
    meta:
        description = "检测包含可疑 API 调用的 PE 文件"

    condition:
        pe.is_pe and
        any of ($suspicious_funcs) in (pe.imported_functions)
    
    strings:
        $suspicious_funcs = "VirtualAllocEx"
        $suspicious_funcs = "WriteProcessMemory"
        $suspicious_funcs = "CreateRemoteThread"
}

注意：使用 pe 模块需要目标文件是有效的 PE 文件。

四、YARA 与 SIEM/SOC 集成思路

定时扫描文件系统：使用 Python 脚本定期扫描上传目录或临时目录。
与文件上传服务集成：在 Web 应用中，用户上传文件后自动调用 YARA 扫描。
结合 ELK/Splunk：将扫描结果发送到日志系统进行告警。
沙箱联动：在动态分析沙箱中运行样本后，使用 YARA 提取特征。

五、实用技巧

使用 --rules 参数查看已编译规则结构：yara -r example.yar /path/to/files
忽略大小写：使用 nocase 修饰符$a = "virus" nocase
正则表达式支持：$re = /https?:\/\/[a-zA-Z0-9\.\/]*/
使用 uint32be(0) 检测文件头：$mz = { 4D 5A } // PE 文件头 condition: $mz at 0

六、常见问题

编译错误：检查语法，YARA 对缩进和标点敏感。
性能问题：避免过于宽泛的规则，使用 ascii, wide, nocase 精确控制。
权限问题：扫描系统文件可能需要管理员权限。

七、资源推荐

YARA 官方文档：https://yara.readthedocs.io/
YARA Rules 仓库：
- https://github.com/Yara-Rules/rules
- https://github.com/Neo23x0/signature-base
在线规则测试：https://yara-web.vercel.app/

总结

YARA 是一个强大灵活的模式匹配工具，适合用于：

恶意软件检测
威胁狩猎（Threat Hunting）
自动化分析流水线
安全产品集成（EDR、AV、沙箱）

通过 yara-python，你可以轻松将其集成到你的安全工具或平台中。

如需更复杂的集成（如多线程扫描、规则热加载、Web API 封装），可进一步封装为 REST 服务（使用 Flask/FastAPI）。

发表在 linux文章 | 留下评论

安装使用libmagic库

发表于2025-08-02由麦芽爸

如果你遇到的错误：

detect.c:5:10: fatal error: magic.h: No such file or directory
    5 | #include <magic.h>
      |          ^~~~~~~~~
compilation terminated.

说明 编译器找不到 magic.h 头文件，这是 libmagic 开发包的一部分。虽然你可能已经安装了 file 命令，但 没有安装其开发头文件（devel/dev 包）。

✅ 解决方案：安装 `libmagic` 的开发包

🔧 Ubuntu / Debian 系统

你需要安装 libmagic-dev：

sudo apt update
sudo apt install -y libmagic-dev

✅ 这个包会提供：

/usr/include/magic.h ← 编译时需要

/usr/lib/x86_64-linux-gnu/libmagic.so ← 链接时需要

安装完成后，重新编译：

gcc -o detect detect.c -lmagic

✅ 应该可以成功编译。

🔧 CentOS / RHEL / Rocky Linux / AlmaLinux

sudo yum install -y file-devel
# 或者在较新版本中：
sudo dnf install -y file-devel

然后编译：

gcc -o detect detect.c -lmagic

🔧 Fedora

sudo dnf install -y file-devel

🔧 openSUSE

sudo zypper install -y libmagic-devel

🔍 验证头文件是否已安装

运行以下命令，检查 magic.h 是否存在：

ls /usr/include/magic.h

✅ 正常输出：

/usr/include/magic.h

如果没有输出，说明 libmagic-dev 还没装好。

📦 验证库文件是否存在

find /usr/lib* -name "libmagic.*" | grep -v pkgconfig

你应该看到类似：

/usr/lib/x86_64-linux-gnu/libmagic.so
/usr/lib/x86_64-linux-gnu/libmagic.a

🛠️ 重新编译（确认成功）

// detect.c - 使用 libmagic 识别卫星数据类型
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <magic.h>  // libmagic 头文件

// 打印错误并退出
void die(magic_t magic) {
    fprintf(stderr, "Error: %s\n", magic_error(magic));
    magic_close(magic);
    exit(1);
}

// 分析单个文件
void analyze_file(const char *filename) {
    magic_t magic;

    // 1. 创建 magic handle
    magic = magic_open(MAGIC_MIME_TYPE | MAGIC_MIME_ENCODING);
    if (!magic) {
        fprintf(stderr, "Failed to initialize libmagic\n");
        exit(1);
    }

    // 2. 加载 magic 数据库
    if (magic_load(magic, NULL) != 0) {  // NULL 表示使用默认数据库
        die(magic);
    }

    // 3. 获取 MIME 类型和编码
    const char *mime = magic_file(magic, filename);
    const char *encoding = NULL;

    // 分离 MIME 和编码（magic_file 返回 "type; charset=xxx"）
    char *semicolon = strchr(mime, ';');
    char mime_type[64] = {0};
    char charset[32] = {0};

    if (semicolon) {
        strncpy(mime_type, mime, semicolon - mime);
        sscanf(semicolon, "; charset=%s", charset);
    } else {
        strcpy(mime_type, mime);
        strcpy(charset, "unknown");
    }

    // 4. 打印结果
    printf("📄 %s:\n", filename);
    printf("   MIME 类型: %s\n", mime_type);
    printf("   字符编码: %s\n", charset);

    // 5. 卫星场景智能判断
    if (strcmp(mime_type, "text/plain") == 0) {
        printf("   🛰️ 判定: 明文遥测/日志文件 → 可直接解析\n");
    } else if (strstr(mime_type, "image/")) {
        printf("   🛰️ 判定: 遥感图像 → 保存为可视化数据\n");
    } else if (strcmp(mime_type, "application/gzip") == 0 ||
               strcmp(mime_type, "application/zip") == 0) {
        printf("   🛰️ 判定: 压缩数据 → 需解压后进一步分析\n");
    } else if (strcmp(mime_type, "application/x-executable") == 0) {
        printf("   🛰️ 判定: 固件更新包 → 验证签名后升级\n");
    } else if (strcmp(mime_type, "application/octet-stream") == 0) {
        printf("   🛰️ 判定: 二进制流 → 可能为加密或自定义协议\n");
    } else {
        printf("   🛰️ 判定: 未知类型 → 需人工分析\n");
    }
    printf("\n");

    // 6. 释放资源
    magic_close(magic);
}

int main(int argc, char *argv[]) {
    if (argc < 2) {
        fprintf(stderr, "用法: %s <文件1> [文件2] ...\n", argv[0]);
        exit(1);
    }

    printf("🔍 启动 libmagic C 接口 - 卫星数据类型识别\n");
    printf("------------------------------------------------\n\n");

    for (int i = 1; i < argc; i++) {
        analyze_file(argv[i]);
    }

    return 0;
}

gcc -o detect detect.c -lmagic

✅ 成功后运行：

./detect telemetry.txt

你应该看到输出：

📄 telemetry.txt:
   MIME 类型: text/plain
   字符编码: us-ascii
   🛰️ 判定: 明文遥测/日志文件 → 可直接解析

❌ 常见错误排查

错误	原因	解决
`magic.h: No such file or directory`	缺少 `libmagic-dev`	安装 `libmagic-dev`
`undefined reference to 'magic_open'`	忘了 `-lmagic`	编译时加 `-lmagic`
`error while loading shared libraries: libmagic.so.1`	运行时库缺失	安装 `libmagic1`（Ubuntu）或 `file`（其他）

如果是 64 位系统但提示库找不到，可尝试软链接（极少见）：
sudo ln -s /usr/lib/x86_64-linux-gnu/libmagic.so /usr/lib/libmagic.so

✅ 总结

你遇到的问题是典型的 “缺少开发头文件” 错误。

只需一步修复（Ubuntu/Debian）：

sudo apt install -y libmagic-dev

然后重新编译：

gcc -o detect detect.c -lmagic

✅ 问题解决。

如果你现在运行 ./detect * 能正确识别 PNG、GZIP、ELF 等文件类型，说明你的 C 语言调用 libmagic 环境已完全就绪

发表在 linux文章 | 留下评论

libmagic库使用流程

发表于2025-08-02由麦芽爸

✅ 正确流程：使用自定义 magic 的标准做法

编写 sat.magic（纯规则） 
         ↓
    file -C -m sat.magic   → 生成 magic.mgc（二进制数据库）
         ↓
C 程序中 magic_load("magic.mgc")  → 成功加载
         ↓
调用 magic_file() → 正确识别

✅ 第一步：创建正确的 `sat.magic`（仅规则，无扩展字段）

cd ~/satellite-analysis-asscii/smagic
nano sat.magic

✅ 内容（严格兼容 `file -C`）：

# Satellite Telemetry Frame
0       belong      0xAA55CCDD
>8      string      \x01\x02\x03\x04
>8      string      SAT-TELEMETRY
# (Satellite Telemetry Packet)

# GBK Chinese Text Detection
0       byte        > 0xA0
>&0     byte        < 0xFF
>1      byte        > 0xA0
>&1     byte        < 0xFF
# (Chinese GBK Text)

✅ 关键：

不要写 name=, desc=, mime=

注释用 # (Description) 格式

使用英文或 ASCII

✅ 第二步：编译生成 `magic.mgc`

file -C -m sat.magic

✅ 正确输出：

Creating magic.mgc from sat.magic

👉 生成了 magic.mgc，这是 唯一能被 magic_load() 正确加载的文件

✅ 第三步：修改你的 C 程序，加载 `magic.mgc`

你的 a.out 是从某个 .c 文件编译来的，假设是 detect_encoding.c。

编辑它：

vim detect_encoding.c

修改 `magic_load` 部分：

// 原代码（错误）：
// if (magic_load(magic, NULL) != 0) { ... }

// 新代码：先加载默认库，再加载自定义库
if (magic_load(magic, NULL) != 0) {
    fprintf(stderr, "Error loading default magic: %s\n", magic_error(magic));
    magic_close(magic);
    exit(1);
}

// 加载自定义 magic.mgc
if (magic_load(magic, "./smagic/magic.mgc") != 0) {
    fprintf(stderr, "Error loading custom magic: %s\n", magic_error(magic));
    magic_close(magic);
    exit(1);
}

✅ 注意路径：./smagic/magic.mgc

✅ 第四步：重新编译并运行

gcc -o a.out detect_encoding.c -lmagic

生成测试文件（确保有 GBK 文本）

cd ~/satellite-analysis-asscii

# 生成 GBK 编码文件
echo "卫星状态：正常
时间：2025-04-05
消息：系统在线" > gbk.txt

iconv -f UTF-8 -t GBK gbk.txt > gbk.bin

运行程序

./a.out gbk.bin

✅ 预期输出：

🔍 启动 libmagic 文本编码识别（C 语言版）
------------------------------------------------

📄 gbk.bin:
   检测编码: iso-8859-1 → ISO-8859-1（西欧）

⚠️ 注意：libmagic 仍可能将 GBK 误判为 iso-8859-1，因为两者都是“可打印扩展 ASCII”，但至少 你的自定义 magic 已正确加载。

✅ 如何让 GBK 被正确识别？—— 使用 `cchardet`

libmagic 不擅长文本编码识别。你应该：

1. 安装 `cchardet`

pip3 install cchardet

2. 创建 `detect_gbk.py`

#!/usr/bin/env python3
import cchardet
import sys

with open(sys.argv[1], 'rb') as f:
    raw = f.read()
result = cchardet.detect(raw)
print(f"文件: {sys.argv[1]}")
print(f"检测编码: {result['encoding']}")
print(f"置信度: {result['confidence']:.2f}")

3. 运行

python3 detect_gbk.py gbk.bin

✅ 输出：

检测编码: GBK
置信度: 0.99

🎯 成功识别！

✅ 最终建议：分工明确

任务	工具
识别文件类型（PNG/GZIP/ELF）	✅ `libmagic`（C）
识别文本编码（UTF-8/GBK/ASCII）	✅ `cchardet`（Python）
识别自定义协议帧（0xAA55…）	✅ `libmagic` + 自定义 `magic.mgc`

🎯 你现在可以：

用 file -C 生成 magic.mgc
用 C 程序加载它，识别自定义卫星帧
用 Python + cchardet 精确识别 GBK 编码

发表在 linux文章 | 留下评论

多编码的测试文本文件

发表于2025-08-02由麦芽爸

生成一系列 多语言、多编码的测试文本文件，文件扩展名为 .txt，用于测试 libmagic、chardet、cchardet 等工具对不同语种和编码的识别能力。

这些文件将覆盖：

✅ 主要语言：中文、日文、韩文、阿拉伯文、俄文、西欧文、UTF-16 等
✅ 常见编码：UTF-8、GBK、Big5、Shift_JIS、EUC-KR、ISO-8859-1、UTF-16LE/BE
✅ 文件命名规范：<语言>_<编码>.txt

🛠️ 第一步：创建工作目录

mkdir ~/encoding-test
cd ~/encoding-test

🧪 第二步：生成各文种编码测试文件（.txt）

1. UTF-8（通用 Unicode）

cat > zh_utf8.txt << 'EOF'
中文测试：卫星状态正常
时间：2025-04-05T12:00:00Z
消息：系统在线，载荷激活
EOF

cat > ja_utf8.txt << 'EOF'
日本語テスト：衛星ステータス正常
時刻：2025-04-05T12:00:00Z
メッセージ：システム起動中
EOF

cat > ko_utf8.txt << 'EOF'
한국어 테스트: 위성 상태 정상
시간: 2025-04-05T12:00:00Z
메시지: 시스템 온라인
EOF

cat > ar_utf8.txt << 'EOF'
اختبار عربي: الحالة طبيعية
الوقت: 2025-04-05T12:00:00Z
الرسالة: النظام يعمل
EOF

cat > ru_utf8.txt << 'EOF'
Тест на русском: Состояние нормальное
Время: 2025-04-05T12:00:00Z
Сообщение: Система работает
EOF

cat > en_utf8.txt << 'EOF'
English Test: Status Nominal
Time: 2025-04-05T12:00:00Z
Message: System Online
EOF

cat > fr_utf8.txt << 'EOF'
Test français : État normal
Heure : 2025-04-05T12:00:00Z
Message : Système en ligne
EOF

2. GBK（简体中文）

# 从 UTF-8 转为 GBK
iconv -f UTF-8 -t GBK zh_utf8.txt -o zh_gbk.txt

3. Big5（繁体中文）

iconv -f UTF-8 -t BIG5 zh_utf8.txt -o zh_big5.txt

4. Shift_JIS（日文）

iconv -f UTF-8 -t SHIFT_JIS ja_utf8.txt -o ja_shift_jis.txt

5. EUC-KR（韩文）

iconv -f UTF-8 -t EUC-KR ko_utf8.txt -o ko_euc_kr.txt

6. ISO-8859-1（西欧，如法语、德语）

iconv -f UTF-8 -t ISO-8859-1 fr_utf8.txt -o fr_latin1.txt

7. UTF-16LE（小端 Unicode）

echo "UTF-16LE Test: 多语言混合" | iconv -t UTF-16LE -o mixed_utf16le.txt

8. UTF-16BE（大端 Unicode）

echo "UTF-16BE Test: Satellite Message" | iconv -t UTF-16BE -o en_utf16be.txt

9. ASCII（纯英文，无扩展字符）

cat > en_ascii.txt << 'EOF'
Satellite Telemetry Log
Status: Nominal
Time: 2025-04-05T12:00:00Z
EOF

10. UTF-8 with BOM（带签名）

# 手动生成带 BOM 的 UTF-8
printf '\xEF\xBB\xBF' > zh_utf8_bom.txt
cat zh_utf8.txt >> zh_utf8_bom.txt

✅ 第三步：验证文件生成成功

ls -l *.txt

你应该看到类似：

-rw-r--r-- 1 user user  123 Apr  5 12:00 zh_utf8.txt
-rw-r--r-- 1 user user  123 Apr  5 12:00 zh_gbk.txt
-rw-r--r-- 1 user user  123 Apr  5 12:00 zh_big5.txt
-rw-r--r-- 1 user user  123 Apr  5 12:00 ja_shift_jis.txt
-rw-r--r-- 1 user user  123 Apr  5 12:00 ko_euc_kr.txt
-rw-r--r-- 1 user user  123 Apr  5 12:00 fr_latin1.txt
-rw-r--r-- 1 user user  123 Apr  5 12:00 en_utf16le.txt
...

🔍 第四步：使用 `file` 命令识别类型

file *.txt

✅ 预期输出示例：

en_ascii.txt:        ASCII text
en_utf8.txt:         UTF-8 Unicode text
zh_gbk.txt:          ISO-8859 text
zh_big5.txt:         ISO-8859 text
ja_shift_jis.txt:    ISO-8859 text
ko_euc_kr.txt:       ISO-8859 text
fr_latin1.txt:       ISO-8859 text
mixed_utf16le.txt:   Little-endian UTF-16 Unicode text
en_utf16be.txt:      Big-endian UTF-16 Unicode text
zh_utf8_bom.txt:     UTF-8 Unicode (with BOM) text

⚠️ 注意：zh_gbk.txt 被识别为 ISO-8859 text —— 这正是我们之前说的：libmagic 无法区分 GBK 和 Latin-1

🧪 第五步：使用 `cchardet` 精确识别编码

pip3 install cchardet

创建 detect_all.py：

#!/usr/bin/env python3
import cchardet
import glob

for filepath in sorted(glob.glob("*.txt")):
    with open(filepath, 'rb') as f:
        raw = f.read()
    result = cchardet.detect(raw)
    encoding = result['encoding']
    confidence = result['confidence']
    print(f"{filepath:20} → {encoding:10} (置信度: {confidence:.2f})")

运行：

python3 detect_all.py

✅ 预期输出（示例）：

en_ascii.txt         → ascii       (置信度: 1.00)
en_utf16be.txt       → UTF-16BE    (置信度: 1.00)
en_utf8.txt          → UTF-8       (置信度: 1.00)
fr_latin1.txt        → ISO-8859-1  (置信度: 1.00)
ja_shift_jis.txt     → SHIFT_JIS   (置信度: 0.99)
ko_euc_kr.txt        → EUC-KR      (置信度: 0.99)
zh_big5.txt          → Big5        (置信度: 0.99)
zh_gbk.txt           → GB2312      (置信度: 0.99)
zh_utf8_bom.txt      → UTF-8       (置信度: 1.00)
zh_utf8.txt          → UTF-8       (置信度: 1.00)

✅ 成功识别 GBK 为 GB2312（GB2312 是 GBK 的子集，可接受）

✅ 总结：各文种编码测试文件清单

语言	编码	文件名
中文（简体）	UTF-8	`zh_utf8.txt`
中文（简体）	GBK	`zh_gbk.txt`
中文（繁体）	Big5	`zh_big5.txt`
日文	Shift_JIS	`ja_shift_jis.txt`
韩文	EUC-KR	`ko_euc_kr.txt`
俄文	UTF-8	`ru_utf8.txt`
阿拉伯文	UTF-8	`ar_utf8.txt`
法文	ISO-8859-1	`fr_latin1.txt`
英文	ASCII	`en_ascii.txt`
英文	UTF-16LE	`en_utf16le.txt`
英文	UTF-16BE	`en_utf16be.txt`
中文	UTF-8 with BOM	`zh_utf8_bom.txt`

🛰️ 在卫星通信中的应用

你可以用这些文件：

测试地面站软件的编码自动识别能力
训练 chardet 模型（可选）
构建“多语言遥测解析引擎”
自动化处理来自不同国家卫星的数据

发表在 linux文章 | 留下评论

Linux 3.0 内核系统调用

发表于2025-07-26由麦芽爸

首先需要明确一点：系统调用的具体列表和编号会随着内核版本演进而变化，增加新的调用或废弃旧的调用。虽然核心功能（如文件 I/O、进程管理）相对稳定，但细节上会有差异。请注意，最准确的信息始终来自于查阅对应内核版本的源代码或权威文档。

### Linux 3.0 内核系统调用 (基于 x86_64 架构)
Linux 3.0 是一个相对成熟的内核版本。其系统调用接口已经非常丰富和稳定。
#### **系统调用分类与接口**
1. **进程控制 (Process Control)**
* `fork` (57): 创建一个子进程。
* `vfork` (58): 创建子进程，但在子进程调用 `exec` 或 `_exit` 前阻塞父进程。
* `clone` (56): 创建子进程或线程，比 `fork`/`vfork` 更灵活，允许共享内存空间等。
* `execve` (59): 用新程序替换当前进程镜像。
* `exit` (60): 终止调用进程。
* `exit_group` (231): 终止线程组中的所有线程。
* `wait4` (61): 等待子进程状态变化。
* `waitid` (247): 等待子进程状态变化（提供比 `wait4` 更丰富的信息）。
* `kill` (62): 发送信号给进程。
* `tkill` (200): 发送信号给指定线程 (已废弃，推荐使用 `tgkill`)。
* `tgkill` (234): 发送信号给指定进程内的指定线程。
* `getpid` (39): 获取调用进程的进程 ID (PID)。
* `getppid` (110): 获取调用进程的父进程 ID (PPID)。
* `getuid` (102): 获取真实用户 ID。
* `geteuid` (107): 获取有效用户 ID。
* `getgid` (104): 获取真实组 ID。
* `getegid` (108): 获取有效组 ID。
* `setuid` (105): 设置用户 ID。
* `setgid` (106): 设置组 ID。
* `getgroups` (115): 获取附加组 ID 列表。
* `setgroups` (116): 设置附加组 ID 列表。
* `setreuid` (113): 设置真实和有效用户 ID。
* `setregid` (114): 设置真实和有效组 ID。
* `setresuid` (117): 设置真实、有效和保存的用户 ID。
* `setresgid` (119): 设置真实、有效和保存的组 ID。
* `getresuid` (118): 获取真实、有效和保存的用户 ID。
* `getresgid` (120): 获取真实、有效和保存的组 ID。
* `setsid` (112): 创建新的会话。
* `getsid` (124): 获取会话 ID。
* `setpgid` (109): 设置进程组 ID。
* `getpgid` (121): 获取进程组 ID。
* `getpgrp` (111): 获取当前进程的进程组 ID。
* `prctl` (157): 操作进程属性（如设置进程名、安全模块等）。
* `arch_prctl` (158): 特定于架构的进程控制（x86_64 上用于设置 FS/GS 段基址）。
* `personality` (135): 设置进程执行域（personality）。
* `getpriority` (140): 获取进程/进程组的调度优先级。
* `setpriority` (141): 设置进程/进程组的调度优先级。
* `sched_setscheduler` (144): 设置进程的调度策略和参数。
* `sched_getscheduler` (145): 获取进程的调度策略。
* `sched_yield` (24): 主动让出 CPU。
* `sched_get_priority_max` (146): 获取指定调度策略的最大优先级。
* `sched_get_priority_min` (147): 获取指定调度策略的最小优先级。
* `sched_rr_get_interval` (148): 获取 SCHED_RR 策略的时间片。
* `nanosleep` (35): 高精度睡眠。
* `getitimer` (36): 获取间隔计时器值。
* `setitimer` (38): 设置间隔计时器值。

2. **文件 I/O (File Input/Output)**
* `open` (2): 打开或创建文件。
* `openat` (257): 类似 `open`，但允许指定相对路径的基准目录描述符。
* `creat` (85): 创建新文件（等同于 `open` 带 `O_CREAT|O_WRONLY|O_TRUNC` 标志）。
* `close` (3): 关闭打开的文件描述符。
* `read` (0): 从文件描述符读取数据。
* `write` (1): 向文件描述符写入数据。
* `pread64` (17): 从文件指定偏移量读取数据（原子操作）。
* `pwrite64` (18): 向文件指定偏移量写入数据（原子操作）。
* `readv` (19): 从文件描述符读取数据到多个缓冲区（分散读）。
* `writev` (20): 从多个缓冲区写入数据到文件描述符（集中写）。
* `lseek` (8): 设置文件偏移量。
* `fcntl` (72): 对打开的文件描述符进行各种控制操作（如复制描述符、设置标志）。
* `dup` (32): 复制文件描述符。
* `dup2` (33): 复制文件描述符，并允许指定新的描述符号。
* `dup3` (292): 类似 `dup2`，但允许设置 `O_CLOEXEC` 标志。
* `select` (23): I/O 多路复用，监视多个文件描述符。
* `poll` (7): I/O 多路复用，监视多个文件描述符。
* `epoll_create` (213): 创建 epoll 实例。
* `epoll_create1` (291): 创建 epoll 实例，允许设置标志。
* `epoll_ctl` (233): 控制 epoll 实例（添加/修改/删除监视的文件描述符）。
* `epoll_wait` (232): 等待 epoll 实例上的事件。
* `pipe` (22): 创建管道。
* `pipe2` (293): 创建管道，允许设置标志（如 `O_CLOEXEC`, `O_NONBLOCK`）。

3. **文件系统控制 (File System Control)**
* `stat` (4): 获取文件状态信息。
* `lstat` (6): 获取文件状态信息（不跟随符号链接）。
* `fstat` (5): 获取打开文件描述符对应的文件状态信息。
* `newstat` (106, 64-bit 版本): 获取文件状态信息（64位兼容）。
* `newlstat` (107, 64-bit 版本): 获取文件状态信息（不跟随符号链接，64位兼容）。
* `newfstat` (108, 64-bit 版本): 获取打开文件描述符对应的文件状态信息（64位兼容）。
* `statfs` (137): 获取文件系统统计信息。
* `fstatfs` (138): 获取打开文件描述符所在文件系统的统计信息。
* `access` (21): 检查调用进程是否可以访问文件（按实际用户ID和组ID）。
* `chmod` (90): 改变文件权限。
* `fchmod` (91): 改变打开文件描述符对应的文件权限。
* `chown` (92): 改变文件所有者和组。
* `fchown` (93): 改变打开文件描述符对应的文件所有者和组。
* `lchown` (94): 改变符号链接本身的所有者和组。
* `truncate` (76): 将文件截断或扩展到指定长度。
* `ftruncate` (77): 将打开文件描述符对应的文件截断或扩展到指定长度。
* `utime` (132): 改变文件的访问时间和修改时间。
* `utimes` (235): 改变文件的访问时间和修改时间（使用 `timeval` 结构）。
* `link` (86): 创建硬链接。
* `linkat` (265): 创建硬链接，允许指定相对路径基准。
* `symlink` (88): 创建符号链接。
* `symlinkat` (266): 创建符号链接，允许指定相对路径基准。
* `readlink` (89): 读取符号链接的内容。
* `readlinkat` (267): 读取符号链接的内容，允许指定相对路径基准。
* `unlink` (87): 删除目录项（通常用于删除文件）。
* `unlinkat` (263): 删除目录项，允许指定相对路径基准和标志。
* `rename` (82): 重命名文件或目录。
* `renameat` (264): 重命名文件或目录，允许指定相对路径基准。
* `mkdir` (83): 创建目录。
* `mkdirat` (258): 创建目录，允许指定相对路径基准。
* `rmdir` (84): 删除空目录。
* `chdir` (80): 改变当前工作目录。
* `fchdir` (81): 通过文件描述符改变当前工作目录。
* `getcwd` (79): 获取当前工作目录路径。
* `umask` (95): 设置或获取文件模式创建掩码。
* `mknod` (133): 创建特殊文件（设备文件、FIFO）。
* `mknodat` (259): 创建特殊文件，允许指定相对路径基准。
* `getdents` (78): 读取目录内容（旧接口）。
* `getdents64` (217): 读取目录内容（新接口，支持 64 位 inode）。

4. **内存管理 (Memory Management)**
* `brk` (12): 改变数据段大小。
* `sbrk` (12, 库函数封装): 改变数据段大小。
* `mmap` (9): 将文件或设备映射到内存，或分配匿名内存。
* `munmap` (11): 解除内存映射。
* `mremap` (25): 重新映射虚拟内存地址。
* `msync` (26): 将映射区域的修改同步到文件。
* `mprotect` (10): 设置内存页的保护属性。
* `mincore` (27): 确定内存页是否在物理内存中。
* `madvise` (28): 给内核提供关于内存访问模式的建议。
* `shmget` (29): 分配 System V 共享内存段。
* `shmat` (30): 连接 System V 共享内存段。
* `shmdt` (67): 断开 System V 共享内存段连接。
* `shmctl` (31): 控制 System V 共享内存段。

5. **信号处理 (Signal Handling)**
* `signal` (48, 库函数封装): 设置信号处理函数（不推荐直接使用，推荐 `sigaction`）。
* `sigaction` (13): 检查或修改信号的处理动作。
* `sigprocmask` (14): 检查或修改信号掩码。
* `sigpending` (15): 检查挂起的信号。
* `sigsuspend` (16): 等待信号。
* `sigaltstack` (131): 设置或获取信号栈信息。

6. **时间管理 (Time Management)**
* `time` (201): 获取当前时间（秒）。
* `gettimeofday` (96): 获取当前时间（秒和微秒）。
* `settimeofday` (164): 设置系统时间。
* `clock_gettime` (228): 获取指定时钟的时间。
* `clock_settime` (227): 设置指定时钟的时间。
* `clock_getres` (229): 获取指定时钟的精度。

7. **套接字 (Sockets)**
* `socket` (41): 创建套接字。
* `bind` (49): 将套接字绑定到地址。
* `connect` (42): 建立到另一个套接字的连接。
* `listen` (50): 监听套接字上的连接。
* `accept` (43): 接受一个套接字连接。
* `getsockname` (51): 获取套接字本地地址。
* `getpeername` (52): 获取套接字对端地址。
* `socketpair` (53): 创建一对已连接的套接字。
* `send` (44): 通过套接字发送消息。
* `recv` (45): 通过套接字接收消息。
* `sendto` (46): 通过套接字发送数据报。
* `recvfrom` (47): 通过套接字接收数据报。
* `shutdown` (48): 关闭套接字的全部或部分连接。
* `setsockopt` (54): 设置套接字选项。
* `getsockopt` (55): 获取套接字选项。
* `sendmsg` (46): 通过套接字发送消息（支持辅助数据）。
* `recvmsg` (47): 通过套接字接收消息（支持辅助数据）。

8. **用户和组管理 (User and Group Management)**
* （已在进程控制部分列出：`getuid`, `geteuid`, `getgid`, `getegid`, `setuid`, `setgid`, `getgroups`, `setgroups`, `setreuid`, `setregid`, `setresuid`, `setresgid`, `getresuid`, `getresgid`）

9. **系统信息和控制 (System Information and Control)**
* `uname` (63): 获取系统名称、版本等信息。
* `sysinfo` (179): 获取系统统计信息。
* `times` (100): 获取进程时间。
* `getrusage` (98): 获取资源使用信息。
* `syslog` (103): 读写内核日志缓冲区。
* `iopl` (172): 设置 I/O 权限级别（需要特权）。
* `ioperm` (173): 设置端口 I/O 权限位图（需要特权）。

10. **其他 (Miscellaneous)**
* `ioctl` (16): 设备特定的 I/O 操作。
* `fcntl` (72): 文件描述符控制（已在文件 I/O 部分列出）。
* `mount` (165): 挂载文件系统。
* `umount2` (166): 卸载文件系统。
* `pivot_root` (155): 改变根文件系统。
* `swapon` (167): 启用交换空间。
* `swapoff` (168): 禁用交换空间。
* `reboot` (169): 重启或关闭系统（需要特权）。
* `init_module` (171): 加载内核模块（需要特权）。
* `delete_module` (176): 卸载内核模块（需要特权）。
* `kexec_load` (246): 加载新的内核以供 `kexec` 使用。
* `acct` (163): 启用或禁用进程记账。
* `capget` (125): 获取线程的能力。
* `capset` (126): 设置线程的能力。
* `ptrace` (101): 进程跟踪。
* `sysfs` (139): 获取关于系统文件系统的信息。
* `ustat` (136): 获取文件系统统计信息（已废弃）。

—

### Linux 5.x 内核系统调用 (基于 x86_64 架构)

Linux 5.x 是一个较新的内核系列，它在保持向后兼容的同时，引入了许多新特性和系统调用。

#### **系统调用分类与接口 (与 3.0 相比的主要变化)**

核心分类基本一致，但在具体调用上有所增减和演进：

1. **新增的系统调用 (New Syscalls):**
* `io_uring_setup` (425): 设置 io_uring 异步 I/O 接口。
* `io_uring_enter` (426): 启动/提交 io_uring 操作。
* `io_uring_register` (427): 注册文件/缓冲区等供 io_uring 使用。
* `openat2` (437): `openat` 的扩展版本，提供更多控制选项。
* `pidfd_send_signal` (424): 通过 PID 文件描述符发送信号，更安全。
* `pidfd_open` (434): 为进程 ID 打开一个文件描述符。
* `clone3` (435): `clone` 的扩展版本，提供更丰富的参数。
* `close_range` (436): 关闭一个范围内的文件描述符。
* `fsconfig` (431): 配置和管理文件系统挂载参数。
* `fsmount` (432): 创建挂载实例。
* `fsopen` (430): 打开文件系统。
* `fspick` (433): 选择文件系统挂载点。
* `move_mount` (429): 移动挂载点。
* `open_tree` (428): 打开目录树以进行挂载操作。
* `landlock_create_ruleset` (444+): Landlock LSM 安全模块相关。
* `landlock_add_rule` (445+): Landlock LSM 安全模块相关。
* `landlock_restrict_self` (446+): Landlock LSM 安全模块相关。
* `memfd_secret` (447+): 创建一个内存文件描述符，其内容对内核其他部分保密。
* `process_mrelease` (448+): 释放与进程相关的内存。
* `futex_waitv` (449+): `futex` 的扩展，支持等待多个 futex。
* `set_mempolicy_home_node` (450+): 设置内存策略的首选 NUMA 节点。

2. **演进和改进 (Evolution & Improvements):**
* **`statx` (332):** 一个新的、更强大和灵活的获取文件状态信息的系统调用，旨在替代 `stat/lstat/fstat` 系列。它提供了更丰富的元数据和更好的性能。
* **`copy_file_range` (326):** 在两个文件描述符之间高效地复制数据，内核层面优化。
* **`preadv2` (327), `pwritev2` (328):** `preadv`/`pwritev` 的增强版，支持额外的标志（如 `RWF_NOWAIT`, `RWF_HIPRI`）。
* **`pkey_mprotect` (329):** 与内存保护密钥（Memory Protection Keys）一起使用，提供比 `mprotect` 更细粒度的保护。
* **`pkey_alloc` (330), `pkey_free` (331):** 分配和释放内存保护密钥。
* **`statfs`/`fstatfs` 行为改进:** 对某些文件系统的支持和信息返回可能更完善。
* **`mount`/`umount` 相关:** 旧的 `mount` 系统调用仍然存在，但新的文件系统 API (`fsopen`, `fsconfig`, `fsmount` 等) 提供了更现代、更安全的挂载方式。
* **`seccomp` 增强:** 与安全相关的系统调用可能有更新，用于构建更严格的沙箱。

3. **废弃或不推荐 (Deprecated/Obsolete):**
* 一些旧的、功能重叠或有安全问题的调用可能被标记为废弃，鼓励使用新接口。例如，某些特定架构的旧调用可能不再推荐。
* `sysfs` (139): 在某些场景下可能被新的接口替代或使用减少。

4. **核心功能保持稳定 (Core Functionality Remains Stable):**
* `read`, `write`, `open`, `close`, `fork`, `execve`, `mmap`, `socket`, `bind`, `connect` 等基础且核心的系统调用在 5.x 中依然存在，保证了向后兼容性。它们的编号和基本语义通常不变。

#### **总结**

* **Linux 3.0:** 代表了内核成熟期的一个稳定版本，包含了当时绝大多数常用和必要的系统调用。其分类清晰，是学习经典 Linux 系统编程的良好起点。
* **Linux 5.x:** 在 3.0 的基础上，增加了许多现代化特性，特别是在异步 I/O (`io_uring`)、安全 (`Landlock`, `memfd_secret`)、内存管理 (`pkey_*`)、文件系统操作 (新挂载 API) 和进程控制 (`clone3`, `pidfd_*`) 方面。这些新调用旨在提高性能、安全性、灵活性和易用性。

**学习建议:**

1. **从基础开始:** 先掌握 3.0 中列出的核心系统调用，理解它们的工作原理和使用场景。
2. **查阅手册:** 始终使用 `man 2 syscall_name` 来获取最准确的文档。
3. **实践编码:** 通过编写小程序来实践这些调用。
4. **关注演进:** 学习 5.x 新增的调用，特别是那些能显著提升性能或安全性的功能（如 `io_uring`, `statx`）。
5. **检查兼容性:** 如果你的程序需要在不同内核版本上运行，务必检查所使用的系统调用的可用性。

希望这份详细的分类和介绍能帮助你更好地理解 Linux 系统编程！

发表在 linux文章 | 留下评论

Linux C 编程核心函数详解

发表于2025-07-26由麦芽爸

## Linux C 编程核心函数详解

### 1. `fork` – 进程管理

#### 函数介绍及归类
* **类别：** 系统调用 (System Call)
* **头文件：** `#include `
* **作用：** 创建一个当前进程的副本（子进程）。这是 Linux 下创建新进程的主要方式。

#### 函数原型
“`c
#include
pid_t fork(void);
“`

#### 功能
`fork()` 调用一次，返回两次。它会创建一个与调用进程（父进程）几乎完全相同的子进程。子进程会从 `fork()` 返回后的下一条指令开始执行。

#### 参数
无参数。

#### 返回值
* **在父进程中：** 返回新创建的子进程的进程 ID (PID)，这是一个正整数。
* **在子进程中：** 返回 0。
* **失败时：** 在父进程中返回 -1，并设置全局变量 `errno` 来指示错误原因（如系统资源不足）。

#### 相似函数或关联函数
* `vfork()`: 类似于 `fork()`，但在子进程调用 `exec` 或 `_exit` 之前，父进程会被阻塞。通常用于紧接着调用 `exec` 的场景，效率可能稍高。
* `wait()`, `waitpid()`: 父进程用来等待子进程结束。
* `getpid()`: 获取当前进程的 PID。
* `getppid()`: 获取当前进程的父进程 PID。

#### 示例代码 (C89)
“`c
#include /* printf, perror */
#include /* fork, getpid, getppid */
#include /* pid_t */
#include /* wait */

int main() {
pid_t pid;
int status;

/* 调用 fork 创建子进程 */
pid = fork();

if (pid < 0) { /* fork 失败 */ perror("fork failed"); return 1; /* 返回非零值表示错误 */ } else if (pid == 0) { /* 这段代码在子进程中执行 */ printf("Child Process:\n"); printf(" My PID is %d\n", (int)getpid()); printf(" My Parent's PID is %d\n", (int)getppid()); /* 子进程做一些事情 */ printf(" Child is exiting now.\n"); /* 子进程结束 */ /* 注意：使用 _exit 而不是 exit 可以避免刷新缓冲区等问题，尤其是在 fork 后 */ _exit(0); } else { /* 这段代码在父进程中执行 */ printf("Parent Process:\n"); printf(" My PID is %d\n", (int)getpid()); printf(" I just created a child with PID %d\n", (int)pid); /* 父进程等待子进程结束 */ if (wait(&status) == -1) { perror("wait failed"); return 1; } /* 检查子进程是否正常退出 */ if (WIFEXITED(status)) { printf(" Child exited with status %d\n", WEXITSTATUS(status)); } else { printf(" Child did not exit normally.\n"); } printf(" Parent is exiting now.\n"); } return 0; /* 程序正常退出 */ } ``` --- ### 2. `vfork` - 进程管理 #### 函数介绍及归类 * **类别：** 系统调用 (System Call) * **头文件：** `#include `
* **作用：** 创建一个新进程，但与 `fork` 不同，它在子进程调用 `exec` 或 `_exit` 之前，共享父进程的地址空间，并且父进程会被阻塞。

#### 函数原型
“`c
#include
pid_t vfork(void);
“`

#### 功能
`vfork()` 也调用一次，返回两次。它创建一个新进程，但这个新进程（子进程）在调用 `exec` 系列函数或 `_exit` 之前，与父进程共享内存（包括栈、数据段等）。在此期间，父进程是被挂起的。这使得 `vfork` 在紧接着调用 `exec` 时非常高效，因为它避免了复制父进程的页表。

#### 参数
无参数。

#### 返回值
* **在父进程中：** 返回新创建的子进程的 PID。
* **在子进程中：** 返回 0。
* **失败时：** 在父进程中返回 -1，并设置 `errno`。

#### 相似函数或关联函数
* `fork()`: 更通用，子进程独立于父进程。
* `exec()` 系列函数 (`execl`, `execv`, `execle`, `execve`, `execlp`, `execvp`): 用新程序替换当前进程的镜像。

#### 示例代码 (C89)
“`c
#include /* printf, perror */
#include /* vfork, getpid, getppid, _exit */
#include /* pid_t */

int main() {
pid_t pid;
int shared_var = 10; /* 父子进程共享的变量 */

printf(“Before vfork, shared_var = %d\n”, shared_var);

/* 调用 vfork 创建子进程 */
pid = vfork();

if (pid < 0) { /* vfork 失败 */ perror("vfork failed"); return 1; } else if (pid == 0) { /* 这段代码在子进程中执行 */ /* 注意：在 vfork 后，子进程只能调用 exec 或 _exit */ /* 修改共享变量 */ shared_var = 20; printf("Child modified shared_var to %d\n", shared_var); printf("Child is about to exec.\n"); /* 紧接着调用 exec，这是 vfork 最常见的用法 */ /* execl("/bin/echo", "echo", "Hello from exec'd process!", (char *)NULL); */ /* 如果 exec 失败，必须使用 _exit 退出 */ /* execl("nonexistent_program", "dummy", (char *)NULL); */ /* perror("exec failed"); */ /* _exit(1); */ /* 子进程结束，父进程恢复 */ /* 为了演示，我们直接 _exit */ _exit(0); /* 子进程结束，父进程恢复 */ /* 下面的代码在 vfork 后是危险的，不应该执行 */ /* printf("This line should not be reached in child after vfork without exec/_exit\n"); */ /* return 0; */ /* 不要在 vfork 子进程中使用 return */ } else { /* 这段代码在父进程中执行 */ /* 父进程在这里被阻塞，直到子进程调用 exec 或 _exit */ printf("Parent resumed after child called _exit.\n"); printf("After child _exit, shared_var = %d (might be modified by child)\n", shared_var); printf("Parent is exiting now.\n"); } return 0; } ``` **注意：** `vfork` 的使用场景非常特定，主要是为了紧接着调用 `exec`。由于其共享内存的特性，使用不当容易导致问题，因此现代编程中 `fork` + `exec` 或 `posix_spawn` 更常用。 --- ### 3. `system` - 进程管理/命令执行 #### 函数介绍及归类 * **类别：** 标准库函数 (Standard Library Function) * **头文件：** `#include `
* **作用：** 执行一个 shell 命令字符串。它内部通常通过调用 `fork`、`exec` 和 `wait` 来实现。

#### 函数原型
“`c
#include
int system(const char *command);
“`

#### 功能
`system()` 函数将 `command` 字符串传递给系统的命令处理器（通常是 shell，如 `/bin/sh`）来执行。它是一个方便的函数，可以让你在 C 程序中执行外部命令。

#### 参数
* `command`: 指向以空字符结尾的字符串，该字符串包含了要执行的命令及其参数。

#### 返回值
* **成功：** 返回命令执行后的退出状态。这个状态可以通过 `WIFEXITED`, `WEXITSTATUS` 等宏来解析（类似 `wait`）。
* **`command` 为 NULL：** 如果系统有命令处理器可用，则返回非零值；否则返回 0。这可以用来检查 `system` 是否可用。
* **失败或错误：** 返回 -1，并设置 `errno`（例如，无法创建子进程）。
* **命令本身执行失败：** 返回由命令处理器报告的状态（通常是命令的退出码）。

#### 相似函数或关联函数
* `fork()`, `exec()` 系列, `wait()`: `system` 内部就是用这些函数实现的，提供了更底层和灵活的控制。
* `popen()`, `pclose()`: 可以执行命令并获取其输出（通过管道）。

#### 示例代码 (C89)
“`c
#include /* printf, perror */
#include /* system */

int main() {
int result;

/* 检查 system 是否可用 */
if (system(NULL) == 0) {
printf(“Command processor is not available.\n”);
return 1;
}

printf(“Command processor is available.\n”);

/* 执行一个简单的命令 */
printf(“\n— Executing ‘echo Hello from system call’ —\n”);
result = system(“echo Hello from system call”);
if (result == -1) {
perror(“system call failed”);
return 1;
} else {
printf(“Command ‘echo …’ finished with status %d\n”, result);
/* 注意：直接的 result 值可能包含更多信息，需要用 wait 宏解析 */
/* 为简化，这里只打印原始值 */
}

/* 执行一个列出文件的命令 */
printf(“\n— Executing ‘ls -l’ —\n”);
result = system(“ls -l”);
if (result == -1) {
perror(“system call failed”);
} else {
printf(“Command ‘ls -l’ finished with status %d\n”, result);
}

/* 执行一个会失败的命令 */
printf(“\n— Executing ‘nonexistentcommand’ —\n”);
result = system(“nonexistentcommand”);
if (result == -1) {
perror(“system call failed (this might be due to fork/exec failure)”);
} else {
printf(“Command ‘nonexistentcommand’ finished with status %d\n”, result);
/* 这里的 status 通常表示命令未找到 */
}

printf(“\nMain program ending.\n”);
return 0;
}
“`

—

### 4. `strlen` – 字符串处理

#### 函数介绍及归类
* **类别：** 标准库函数 (Standard Library Function)
* **头文件：** `#include `
* **作用：** 计算 C 风格字符串（以 `\0` 结尾）的长度。

#### 函数原型
“`c
#include
size_t strlen(const char *str);
“`

#### 功能
`strlen()` 函数遍历字符串 `str`，从第一个字符开始计数，直到遇到终止符 `\0`（不包括 `\0`），然后返回计数的字符数。

#### 参数
* `str`: 指向以 `\0` 结尾的字符串。

#### 返回值
返回字符串 `str` 中字符的个数（不包括结尾的 `\0` 字符）。返回类型 `size_t` 是一个无符号整数类型。

#### 相似函数或关联函数
* `sizeof`: 这是一个运算符，不是函数。对于字符数组，`sizeof` 返回整个数组的大小（包括 `\0`），而 `strlen` 返回实际内容的长度。
* `strnlen()`: (C99/C11) 类似 `strlen`，但会限制搜索长度，防止读取超出指定范围的内存。

#### 示例代码 (C89)
“`c
#include /* printf */
#include /* strlen */

int main() {
char str1[] = “Hello”; /* 编译器自动添加 \0 */
char str2[20] = “World”; /* 数组大小为 20，但内容只有 6 个字符（包括 \0） */
const char *str3 = “This is a longer string.”;
char str4[] = {‘N’, ‘o’, ‘ ‘, ‘N’, ‘u’, ‘l’, ‘l’}; /* 危险！没有 \0 */

size_t len1, len2, len3;

len1 = strlen(str1);
len2 = strlen(str2);
len3 = strlen(str3);

printf(“String 1: \”%s\”\n”, str1);
printf(“Length of str1 (strlen): %u\n”, (unsigned int)len1);
printf(“Size of str1 array (sizeof): %u\n”, (unsigned int)sizeof(str1)); /* 包括 \0 */

printf(“\nString 2: \”%s\”\n”, str2);
printf(“Length of str2 (strlen): %u\n”, (unsigned int)len2);
printf(“Size of str2 array (sizeof): %u\n”, (unsigned int)sizeof(str2)); /* 包括 \0 */

printf(“\nString 3: \”%s\”\n”, str3);
printf(“Length of str3 (strlen): %u\n”, (unsigned int)len3);

printf(“\n— Important Note —\n”);
printf(“String 4 is not null-terminated. Calling strlen on it leads to undefined behavior.\n”);
printf(“It might crash or run forever. Uncommenting the next lines is dangerous.\n”);
/* 危险！不要对没有 \0 的字符串调用 strlen */
/* printf(“Length of str4 (UNDEFINED BEHAVIOR!): %u\n”, (unsigned int)strlen(str4)); */

return 0;
}
“`

—

### 5. `strchr` – 字符串处理

#### 函数介绍及归类
* **类别：** 标准库函数 (Standard Library Function)
* **头文件：** `#include `
* **作用：** 在字符串中查找第一次出现的指定字符。

#### 函数原型
“`c
#include
char *strchr(const char *str, int c);
“`

#### 功能
`strchr()` 函数在字符串 `str` 中从左到右搜索字符 `c`（转换为 `char` 类型进行比较）。搜索包括终止符 `\0`。

#### 参数
* `str`: 指向要搜索的以 `\0` 结尾的字符串。
* `c`: 要搜索的字符，以 `int` 类型传递，但在比较时会转换为 `unsigned char`。

#### 返回值
* **找到：** 返回指向字符串 `str` 中第一次出现字符 `c` 的指针。
* **未找到：** 返回 `NULL`。

#### 相似函数或关联函数
* `strrchr()`: 查找字符在字符串中最后一次出现的位置。
* `strstr()`: 查找一个子字符串在另一个字符串中第一次出现的位置。
* `strpbrk()`: 查找字符串中第一个匹配指定字符集中任意字符的位置。

#### 示例代码 (C89)
“`c
#include /* printf */
#include /* strchr */

int main() {
const char *str = “This is a sample string.”;
char target_char = ‘s’;
char *result_ptr;

printf(“String to search: \”%s\”\n”, str);
printf(“Character to find: ‘%c’\n”, target_char);

/* 查找第一次出现 ‘s’ 的位置 */
result_ptr = strchr(str, (int)target_char);

if (result_ptr != NULL) {
printf(“First occurrence of ‘%c’ found at position: %ld\n”,
target_char, (long)(result_ptr – str)); /* 计算偏移量 */
printf(“Substring from first ‘%c’: \”%s\”\n”, target_char, result_ptr);

/* 查找下一个 ‘s’ */
printf(“\n— Searching for next occurrence —\n”);
result_ptr = strchr(result_ptr + 1, (int)target_char); /* 从下一个位置开始搜索 */
if (result_ptr != NULL) {
printf(“Second occurrence of ‘%c’ found at position: %ld\n”,
target_char, (long)(result_ptr – str));
printf(“Substring from second ‘%c’: \”%s\”\n”, target_char, result_ptr);
} else {
printf(“No more occurrences of ‘%c’ found.\n”, target_char);
}

} else {
printf(“Character ‘%c’ not found in the string.\n”, target_char);
}

/* 查找字符串结尾符 ‘\0’ */
printf(“\n— Searching for null terminator —\n”);
result_ptr = strchr(str, ‘\0’);
if (result_ptr != NULL) {
printf(“Null terminator ‘\\0’ found at position: %ld\n”, (long)(result_ptr – str));
printf(“Pointer points to: ‘%c’ (ASCII value %d)\n”, *result_ptr, (int)*result_ptr);
}

/* 查找一个不存在的字符 */
printf(“\n— Searching for a character that doesn’t exist —\n”);
result_ptr = strchr(str, ‘z’);
if (result_ptr != NULL) {
printf(“Character ‘z’ found? This is unexpected.\n”);
} else {
printf(“Character ‘z’ not found, as expected. strchr returned NULL.\n”);
}

return 0;
}
“`

—

发表在 linux文章 | 留下评论

C语言标准/C++标准

发表于2025-07-20由麦芽爸

C语言标准/C++标准

C语言高级编程技巧与最佳实践-完整版

https://users.ece.cmu.edu/~eno/coding/CppCodingStandard.html

https://users.ece.cmu.edu/~eno/coding/CCodingStandard.html

发表在 linux文章 | 留下评论

c库缓冲方式对性能的影响及代码优化方法

发表于2025-07-13由麦芽爸

c库缓冲方式对性能的影响及代码优化方法

C库缓冲方式对性能的影响及代码优化方法，详解fwrite缓存策略提升效率。fwrite的缓存方式对性能有显著影响，这主要涉及到C标准库的I/O缓冲机制。合理配置缓冲可以大幅提升I/O效率，特别是在处理大量数据时。

一、C标准库的三种缓冲模式

全缓冲（Fully Buffered）

缓冲区满时才进行实际I/O操作（如写入磁盘）。
默认用于普通文件（如磁盘文件），缓冲区大小通常为4KB或8KB（取决于系统）。
性能最佳，减少实际I/O次数，但数据可能延迟写入。

行缓冲（Line Buffered）

遇到换行符\n或缓冲区满时刷新。
默认用于终端设备（如stdout、stdin），缓冲区较小（如1KB）。
平衡交互性和性能，适合实时输出。

无缓冲（Unbuffered）

每次调用fwrite立即执行实际I/O。
默认用于标准错误输出（stderr），确保错误信息实时显示。
性能最差，但保证数据实时性。

二、缓冲对性能的影响

1. 性能差异示例

假设需要写入1MB数据，分1000次每次写入1KB：

无缓冲：触发1000次实际I/O，性能最差。
行缓冲：若数据包含换行符，可能触发多次I/O，性能中等。
全缓冲：仅触发1次或少数几次I/O（取决于缓冲区大小），性能最佳。

2. 三种方式的性能测试对比

#include <stdio.h>
#include <time.h>

#define SIZE 1000000  // 1MB数据

int main() {
    char buffer[SIZE];
    FILE *fp;
    clock_t start, end;
    double cpu_time_used;

    // 测试1：无缓冲模式
    fp = fopen("unbuffered.bin", "wb");
    setvbuf(fp, NULL, _IONBF, 0);  // 设置无缓冲
    start = clock();
    fwrite(buffer, 1, SIZE, fp);
    end = clock();
    fclose(fp);
    cpu_time_used = ((double) (end - start)) / CLOCKS_PER_SEC;
    printf("无缓冲耗时: %f 秒\n", cpu_time_used);

    // 测试2：全缓冲模式（默认）
    fp = fopen("buffered.bin", "wb");
    // 默认即为全缓冲，无需额外设置
    start = clock();
    fwrite(buffer, 1, SIZE, fp);
    end = clock();
    fclose(fp);
    cpu_time_used = ((double) (end - start)) / CLOCKS_PER_SEC;
    printf("全缓冲耗时: %f 秒\n", cpu_time_used);

    return 0;
}

典型结果：无缓冲模式耗时可能是全缓冲的10-100倍。

三、如何控制缓冲行为

1. 使用`setvbuf`函数

// 函数原型
int setvbuf(FILE *stream, char *buf, int mode, size_t size);

// 示例：
FILE *fp = fopen("data.bin", "wb");

// 1. 全缓冲（自定义缓冲区）
char my_buffer[8192];  // 8KB缓冲区
setvbuf(fp, my_buffer, _IOFBF, sizeof(my_buffer));

// 2. 行缓冲
setvbuf(fp, NULL, _IOLBF, 0);  // 系统分配默认大小的行缓冲

// 3. 无缓冲
setvbuf(fp, NULL, _IONBF, 0);

2. 使用`setbuf`简化设置

// 全缓冲（自定义缓冲区）
char buf[8192];
setbuf(fp, buf);

// 无缓冲
setbuf(fp, NULL);  // 等价于 setvbuf(fp, NULL, _IONBF, 0)

四、性能优化建议

优先使用全缓冲
对非交互式文件操作（如日志、数据存储），默认全缓冲已足够高效。
调整缓冲区大小

对大文件写入，可增大缓冲区（如64KB或1MB），减少I/O次数：
c char large_buf[1048576]; // 1MB缓冲区 setvbuf(fp, large_buf, _IOFBF, sizeof(large_buf));
但过大的缓冲区会占用过多内存，需权衡。

批量写入
避免频繁调用fwrite写入少量数据，尽量累积到缓冲区大小再写入：

   // 低效：
   for (int i = 0; i < 1000; i++) {
       fwrite(&data[i], sizeof(data[i]), 1, fp);  // 1000次I/O
   }

   // 高效：
   fwrite(data, sizeof(data[0]), 1000, fp);  // 1次I/O

适时刷新缓冲区
若需确保数据及时写入（如崩溃恢复场景），可手动刷新：

   fflush(fp);  // 强制将缓冲区数据写入磁盘

五、特殊场景注意事项

实时日志记录
若需确保日志实时写入（如系统崩溃时不丢失数据），可使用：

   setvbuf(log_file, NULL, _IONBF, 0);  // 无缓冲
   // 或定期手动刷新
   fflush(log_file);

网络I/O
对套接字文件流，默认通常为行缓冲，需手动设置全缓冲以提升性能：

   setvbuf(socket_file, NULL, _IOFBF, 8192);  // 8KB全缓冲

内存映射文件（mmap）
对超大数据量（GB级），可考虑使用mmap替代fwrite，直接映射内存到文件，避免缓冲区拷贝开销。

六、总结

性能排序：全缓冲 >> 行缓冲 > 无缓冲。
关键原则：减少实际I/O次数，批量处理数据。
适用场景：
全缓冲：非实时数据（如批量处理、大文件读写）。
行缓冲：交互式终端输出。
无缓冲：实时日志、错误信息。

合理配置缓冲是提升I/O密集型应用性能的关键手段之一。

发表在 linux文章 | 留下评论

ls显示条件的取反结果（bash中条件取非操作）

发表于2025-07-13由麦芽爸

在Linux或Unix系统中，ls命令本身没有直接的参数支持显示条件的取反结果（例如显示“不匹配”某个模式的文件）。但可以通过结合其他命令或技巧实现类似功能。

以下是几种常见方法：

使用`find`命令配合`-not`或`!`

find命令更灵活，支持逻辑取反操作：

find . -maxdepth 1 -type f ! -name "*.txt"  # 显示当前目录下非.txt文件

-maxdepth 1限制只搜索当前目录，-type f限定为文件，!表示取反。

结合`grep`过滤

通过管道将ls结果传递给grep -v（反向匹配）：

ls | grep -v "pattern"  # 显示不包含"pattern"的文件名

需注意：grep -v会匹配所有输出行，包括隐藏文件（如果ls -a被使用）。

使用`extglob`扩展模式（Bash）

启用Bash的extglob功能后，可以使用复杂模式匹配：

shopt -s extglob
ls !(*.txt)  # 显示所有非.txt文件

此方法仅适用于Bash，且需提前开启extglob选项。

使用`ls`结合`--ignore`（部分版本）

某些ls实现（如GNU coreutils）支持--ignore参数：

ls --ignore="*.txt"  # 忽略.txt文件

但并非所有系统都支持该参数，需测试兼容性。

注意事项

隐藏文件（以.开头的文件）默认不被ls显示，需加-a参数。
文件名含空格或特殊字符时，建议用find -print0或ls -q处理。
若需递归操作，优先使用find而非ls。

想匹配当前目录下“非 .c结尾”的文件

ls *.c可以匹配到所有以*.c结尾的文件，取反操作可以通过一下命令实现：

bash中执行shopt -s extglob命令设定

在执行 ls ！(*.c)

shopt是shell内建命令，来控制bash的行为。

发表在 linux文章 | 留下评论

赚钱的副业：shopify应用插件开发副业赚钱月入2w刀攻略

发表于2025-07-07由麦芽爸

以下是针对新加坡市场的Shopify插件开发完整案例（WhatsApp Chat Button插件月收入$29,000实战路径）：

赚钱的副业：shopify应用插件开发副业赚钱月入2w刀攻略 – LinuxGuide 赚钱的副业赚钱的副业,赚钱的副业：shopify应用插件开发副业赚钱月入2w刀攻略LinuxGuide

2025年高级运维工程师的副业攻略 – LinuxGuideLinuxGuide

一、痛点挖掘：逆向筛选法（从差评中找机会）

Pain Point Discovery: Reverse Screening Method (Finding Opportunities in Negative Reviews)

操作路径:
1. 扫描Shopify应用商店：分析3,000+插件，聚焦差评集中区（如客服工具响应慢、功能单一）。
  Scan Shopify App Store: Analyze 3,000+ plugins, focusing on negative review clusters (e.g., slow customer service response, limited features)
2. 锁定高需方向：东南亚商家急需WhatsApp即时聊天功能，但现有插件体验差（评分≤3星）、收费高。
  Identify High-Demand Direction: Southeast Asian merchants urgently need WhatsApp chat, but existing plugins have poor UX (rating ≤3 stars) and high cost
3. 验证标准：
  - ✅ 用户已付费痛点（证明市场存在）
  - ✅ 改进空间＞50%（差评可转化为机会）
  - ✅ 6周内可开发MVP（快速验证）

二、MVP开发：2周极速上线（技术关键点）

MVP Development: 2-Week Launch (Technical Keys)

技术栈	功能实现	避坑策略
后端: Node.js	处理高并发消息（日均10万+请求）	用Ngrok生成HTTPS回调URL加速测试
Backend: Node.js	Handle high-concurrency messages (100k+ daily requests)	Use Ngrok for HTTPS callback URL testing
前端: Polaris	构建合规UI（符合Shopify设计规范）	提前注册Shopify Partners账号避免审核延误
Frontend: Polaris	Build compliant UI (aligned with Shopify design standards)	Register Shopify Partners account in advance
核心功能	商家输入电话号码→点击“启用”按钮即对接WhatsApp（无需代码）
Core Feature	Merchant enters phone number → clicks “Enable” to connect WhatsApp (no coding)

关键里程碑:

三、增长引擎：ASO优化+零付费推广

Growth Engine: ASO Optimization + Zero Paid Promotion

自然流量策略:
1. 名称含关键词：”WhatsApp Chat Button”直接匹配用户搜索
  Name with Keywords: “WhatsApp Chat Button” directly matches user searches
2. 截图展示一键启用：降低用户学习成本（转化率↑30%）
  Screenshots show one-click activation (reduces learning curve)
3. 差评转化：主动联系差评用户，迭代后通知更新（留存率↑25%）
  Convert Negative Reviews: Contact low-rating users for feedback
留存手段:
- 所有用户（含免费版）提供24小时双语支持（英/中文）
  24/7 bilingual support for all users (English/Chinese)
- 自动发送生命周期邮件收集需求 → 每月迭代1次

四、盈利模式：分层定价+新加坡本地化

Monetization: Tiered Pricing + Singapore Localization

套餐	功能	价格	新加坡优化项
免费版	基础聊天按钮	$0	自动识别+65区号
Free Tier	Basic chat button	$0	Auto-detect +65 prefix
标准版	自动回复+多语言	$9/月	集成新加坡邮政API（物流查询）
Standard	Auto-reply + multilingual	$9/month	Integrate SingPost API
高级版	CRM集成+跨平台同步	$29/月	支持新加坡GST计算（结账显示含税价）
Premium	CRM integration + sync	$29/month	Support GST calculation

规模化结果:

月收入$29,000：付费转化率12%（免费用户→付费）
成本控制：客服外包至新加坡Glints平台（响应延迟＜5分钟）

五、新加坡开发者实操建议

Actionable Tips for Singapore Developers

合规优先：
- EP/SP准证持有者优先接跨国项目（如美国Shopify订单），避免与本地雇主冲突。
- Compliance First: Prioritize cross-border projects for work pass holders
技术复用：
- 直接复用Shopify API代码库（GitHub开源模板），节省80%开发时间。
- Code Reuse: Leverage Shopify API templates on GitHub
冷启动渠道：
- 加入新加坡开发者Slack群组获取本地需求
- 提交插件至Shopify新加坡专题页（政策扶持本地团队）

💡 成功公式：解决差评痛点 × 极简MVP × ASO自然流量
Success Formula = Solve pain points × Minimal MVP × ASO organic traffic
资源包:

Shopify API文档

新加坡电子合同模板：HelloSign SG

发表在 linux文章 | 留下评论

2025新加坡市场程序员低投入高回报副业创意

发表于2025-07-07由麦芽爸

以下是结合新加坡市场特点精选的低投入、高回报技术副业创意，涵盖平台接单、内容变现、微型产品开发及本地化服务四大方向，均需技术能力但无需重资产投入，附具体操作路径和收益数据：

2024新加坡市场程序员低投入高回报副业创意 – LinuxGuide 2024新加坡 2024新加坡LinuxGuide

2025新加坡市场程序员低投入高回报副业创意 – LinuxGuide 2025新加坡 2025新加坡LinuxGuide

🖥️ 一、平台接单型：技术外包变现

1. 用户体验测试（UserTesting）

投入要求：电脑+麦克风，无需资金投入。
操作路径：注册UserTesting → 完成网站/App测试任务（15–20分钟/单）→ 录制操作视频并反馈 → 每单赚10（约13.4新元），月入可达200–$500。
新加坡优势：全英文任务为主，适合本地双语者；PayPal直接收款，无地域限制。

2. 技术文档翻译（Gengo）

投入要求：双语能力（中英）+专业术语库。
操作路径：通过Gengo技能测试 → 接技术文档翻译（如API文档、产品说明书）→ 基础级0.06/词，高级0.12/词 → 单份350词文件可赚21–42（29–58新元）。
高回报策略：专注AI、区块链等高价领域，单价提升30%。

3. 编程自由职业（Upwork/Freelancer.sg）

投入要求：技能专精（如Shopify插件/数据分析）。
操作路径：
- 定位新加坡高需领域：政府网站重构（GST申报系统优化）、电商工具开发（Lazada/Shopee自动化上架工具）。
- 时薪40–120，项目制300–3000/单。

📱 二、内容创作型：知识杠杆化

1. 垂直领域技术博客（Substack/YouTube）

投入要求：域名+服务器（年成本<100新元）。
操作路径：
- 选题：新加坡政策相关技术解读（如AI治理框架、CBDC试点）。
- 变现：广告（AdSense）+付费订阅（例：金融科技周报定价5/月）→ 千粉博客月入500+。

2. 编程教程售卖（Gumroad/ManyTutors）

投入要求：录制设备+课程设计。
案例：开发Python自动化办公课（针对新加坡企业行政痛点）：
- 预录课定价50/套 → 通过LinkedIn定向推广至本地中小企业 → 月销20套即赚1000。

⚙️ 三、产品开发型：被动收入引擎

1. 微型SaaS工具（面向东南亚市场）

投入要求：云服务器（月$10起）+基础代码。
高回报案例：
- 跨境税计算器：对接新加坡GST+马来西亚SST规则，企业订阅15/月 → 百用户月入1500。
- WhatsApp自动化插件：解决本地中小商家群发营销需求，一次性收费30/授权 → 月售50份赚1500。

2. 图库摄影（Shutterstock/Adobe Stock）

投入要求：手机/相机拍摄技术类主题（如智慧城市、金融科技界面）。
收益：每张下载0.14–8.01 → 上传100张优质图，月被动收入50–300。

📍 四、本地化服务型：技术赋能传统行业

1. 中小企业数字化顾问

投入要求：行业Know-How+基础工具（如Excel VBA/Power BI）。
操作路径：
- 帮小贩中心开发自动订货系统（替代人工记账）→ 收费$500/套。
- 为本地诊所设计预约排队小程序 → 月维护费$50/家。

2. 活动技术支援（Quest平台）

投入要求：便携设备+快速部署能力。
案例：承接展会AR互动程序开发 → 单次活动收费200–500（平台抽成10%）。

⚠️ 五、新加坡合规与提效贴士

方向	关键注意事项
签证限制	EP/SP持有者每周兼职≤16小时，优先接跨国项目（如美国公司远程单）避嫌。
税务申报	年副业收入>6,000新元需主动申报；注册独资企业可抵扣设备/培训费用。
冷启动渠道	加入新加坡开发者Slack群组接转包项目；通过椰子帮对接本地探店技术测评需求。

💡 终极公式：技术复用 × 本地需求 = 低投入高回报

例：将已开发的电商爬虫工具适配新加坡平台（Carousell/Qoo10），节省80%开发时间。

避开重运营项目（如定制化ERP），选择2周内可上线MVP的领域（Chrome扩展/API服务）。

资源包：

合同模板：HelloSign新加坡电子签（防纠纷）
需求洞察：订阅IMDA Tech News（获取政策商机）

发表在 linux文章 | 留下评论

2025新加坡程序可实操案例总结

发表于2025-07-07由麦芽爸

以下是结合新加坡市场特点的成功程序员副业案例及其具体操作路径，涵盖技术产品开发、知识付费、本地化服务等方向，均基于真实可验证的商业模式：

一、技术产品型副业：微型SaaS工具开发

案例：越南程序员Tony Dinh的Typing Mind（AI工具）

操作路径：
1. 痛点挖掘：发现ChatGPT官方界面功能简陋（无聊天搜索、频繁退出登录），利用OpenAI API开发增强型UI 。
2. 极速验证：3天内完成原型开发，定价9美元起，通过Twitter发布演示视频，首日收入1,000，7天总收入22,000。
3. 迭代策略：根据用户反馈逐步添加功能（如企业版B2B界面），月收入稳定至$30,000。
新加坡适配建议：
- 结合新加坡企业数字化需求（如政府补贴的AI解决方案），开发垂直领域工具（如金融合规检查插件）。
- 通过NodeFlair平台对接本地企业客户，降低获客成本。

二、知识变现型副业：技术教育+内容创作

案例：ManyTutors平台编程导师

操作路径：
1. 定位细分领域：聚焦新加坡K12编程教育（PSLE/O-Level备考）或热门技术栈（Python/数据分析）。
2. 平台合作：入驻ManyTutors或Snapask，时薪25–100，通过学生评分积累口碑。
3. 内容杠杆：录制课程上传至Substack（付费订阅）或YouTube（广告分成），例如“新加坡AI政策解读”系列。
关键动作：
- 用GitHub开源项目作为教学案例，增强可信度。
- 联合本地机构（如Singapore FinTech Association）举办付费Workshop。

三、本地化服务型副业：传统行业+技术赋能

案例：程序员转型智能渔场运营

操作路径：
1. 跨界融合：将机器视觉（OpenCV）应用于渔业质检，替代人工检测鱼群健康状况。
2. B端合作：对接新加坡高端餐厅（米其林/桐树餐厅），提供可追溯的供应链数据，溢价30%销售。
3. 规模化复制：开发SaaS化检测系统，向东南亚渔场输出技术服务。
新加坡优势：
- 利用EDB（经济发展局） 农业科技补贴，降低硬件投入成本。

四、低风险副业：平台接单+流量变现

案例：Upwork自由开发者

操作路径：
1. 精准定位：在Upwork选择新加坡企业高频需求（如Shopify插件开发、政府网站重构），时薪40–120。
2. 构建壁垒：专攻细分领域（如公积金（CPF）系统API集成），减少低价竞争。
3. 转被动收入：将重复需求模板化（如企业报表自动生成工具），在Gumroad上以$50/份销售。
避坑指南：
- EP/SP准证持有者优先接跨国项目（如美国公司远程单），避免与雇主冲突。

五、成功要素与新加坡合规贴士

核心要素	本地化合规要求
▶ 时间管理	EP准证每周兼职≤16小时，PR/公民无限制；主业加班文化严重者优先选被动收入项目。
▶ 税务优化	年副业收入>6,000新元需主动申报；注册独资公司可抵扣设备/培训费用。
▶ 冷启动渠道	加入新加坡开发者Slack群组获取转包项目；通过椰子帮对接本地探店推广需求。

💡 路径选择公式：
技术深度×本地需求 > 时间投入

例：开发新加坡地铁延误预警小程序（需SMRT数据API）比通用工具有更高溢价空间。

避免重投入项目（如复杂游戏开发），选择6周内可上线MVP的领域。

更多工具包：

合同模板：HelloSign新加坡电子签
接单平台：Glints（侧重初创）、Toptal（高端项目）

2025新加坡程序员副业兼职指南 – LinuxGuideLinuxGuide

发表在 linux文章 | 留下评论

2025新加坡程序员副业兼职指南

发表于2025-07-07由麦芽爸

程序员的新加坡副业指南：高潜力兼职方向与实操建议

实操案例2025新加坡程序可实操案例总结 – LinuxGuideLinuxGuide

A Singapore Programmer’s Guide to Side Hustles: High-Potential Opportunities & Actionable Tips

一、技术外包：灵活接单，高效变现

1. Freelance Outsourcing: Flexible Projects & Quick Monetization
✅ 推荐平台 (Platforms)

国际站 (Global): Upwork（时薪40–120）、Toptal（高端项目300–3000+/项）
本土渠道 (Local): Glints（新加坡科技初创需求多）、NodeFlair（专注IT岗位）
⚠️ 注意 (Caution)
EP/SP工作准证持有者需确认雇主是否允许兼职，部分公司明文禁止接私单。

二、知识付费：编程教学与内容创作

2. Knowledge Monetization: Coding Tutorials & Content Creation
🔥 高需求领域 (High-Demand Niches)

编程教学 (Coding Tutoring): Python/Java入门（50–100/小时）、AI/数据科学进阶课
技术博客 (Tech Blogging): 通过AdSense（广告）或付费订阅（如Substack）盈利，例：分享新加坡AI政策解读
📈 案例 (Case Study)
本土平台ManyTutors招募编程导师，小学-大学课程时薪25–100。

三、开发微型SaaS产品：被动收入利器

3. Micro-SaaS Products: Passive Income Generator
🚀 低风险路径 (Low-Risk Path)

工具类插件 (Tool Plugins): 开发Chrome扩展（如简历优化助手）、Shopify应用（新加坡电商渗透率82%）
API服务 (API Services): 提供短信验证、地理编码等付费API
💰 盈利模式 (Monetization)
| 模式 | 案例 | 收益潜力 |
|————–|———————–|——————|
| 一次性付费 | 付费下载（iOS/安卓） | 500–5000+/月 |
| 订阅制 | 企业数据爬虫工具 | 20–100/用户/月 |

四、合规与税务贴士（新加坡特别版）

4. Compliance & Tax Tips (Singapore Specifics)
📍 关键规则 (Key Rules)

工作时限: 留学生每周兼职≤16小时（公立大学允许），PR/公民无限制。
税务申报: 年副业收入>6000新元需主动申报所得税。
🔒 避坑建议 (Risk Avoidance)
优先选择远程全球项目（如Appen标注任务、GitHub外包），避免本地雇主冲突。

五、资源工具包：加速启动

5. Starter Toolkit: Launch Faster

类型	推荐资源
合同模板	HelloSign（新加坡法律合规电子合同）
接单防坑指南	《程序员接单避雷手册》（GitHub开源文档）
本地社群	新加坡开发者Slack群组（技术协作/项目转包）

💡 终极建议 (Pro Tip)
优先选择时间弹性高的副业（如SaaS产品、预录网课），避免因加班影响主业。
Prioritize time-flexible options (e.g. SaaS, pre-recorded courses) to protect your full-time job performance.

实操案例2025新加坡程序可实操案例总结 – LinuxGuideLinuxGuide

发表在 linux文章 | 留下评论

SPDK背景及开发套件介绍

发表于2025-07-07由麦芽爸

SPDK 是 Intel 发布的存储性能开发工具集，旨在帮助存储 OEM 和 ISV 整合硬件，提升存储系统性能与效率。随着固态存储设备优势凸显，存储软件栈性能愈发关键，SPDK 应运而生。其工作依赖运行于用户态和轮询模式两大关键技术，前者避免内核上下文切换和中断以节省处理开销，后者改变 I/O 基本模型，避免中断延迟和开销。SPDK 由硬件驱动、后端块设备、存储服务、存储协议等数个子组件构成，各组件既能构建端对端体系结构，也可融入非 SPDK 架构。文章还介绍了 SPDK 的编译使用步骤及实现原理，并指出其适用场景。此外，阐述了 SPDK 的动机、基本原理，以及在 Ceph 中的使用情况，同时介绍了 Blobstore 和 BlobFS 的设计目标、工作方式及与 SPDK 的关系，还对比了与 GAE 相关的 3 种存储方法。
重要亮点

SPDK 诞生背景与目标：固态存储设备在性能、功耗和机架密度上优势显著，取代传统磁盘设备趋势明显。但存储软件栈性能成为瓶颈，为助存储相关企业整合硬件，Intel 构建 SPDK，通过运用 Intel 多项技术，提升存储系统效率与性能，如借助硬件设计软件，实现每秒数百万次 I/O 读取。
SPDK 关键技术：一是运行于用户态，设备驱动代码不在内核运行，避免内核上下文切换和中断，节省处理开销，让更多时钟周期用于实际数据存储，无论存储算法复杂与否，都能提升性能和降低延迟；二是轮询模式，应用程序提交读写请求后继续执行其他工作，定时检查 I/O 是否完成，避免中断开销，在固态设备时代，对提升 I/O 效率效果显著，可降低延迟、提高吞吐量。
SPDK 组件构成：硬件驱动包含 NVMe Driver 和 Inter QuickData Technology 等；后端块设备有 NVMe over Fabrics initiator、Ceph RADOS Block Device 等多种；存储服务包括 Block device abstration layer 和 Blobstore；存储协议涵盖 iSCSI target、NVMe-oF target 等。从流程看，由网络前端、处理框架和存储后端组成，各部分协同工作，且部分组件可独立用于加速其他软件。
SPDK 适用场景判断：判断 SPDK 组件是否适合自身体系结构，可从多方面考量。如存储系统基于 Linux 或 FreeBSD，且硬件平台为 Intel 体系结构；高性能路径运行在用户态，系统能合并无锁的 PMDs 到线程模型；当前使用 DPDK 处理网络数据包工作负载，且开发团队具备理解和解决问题的专业技能等场景较为适用。

下载代码：

git clone https://github.com/spdk/spdk --recursive

cd spdk
./configure 
make && make install

#使用fio测试
cd spdk
./configure --with-fio=fio_dir/fio
make && make install

绑定设备

1.需要解绑设备，并格式化；相当于准备一块未格式化的nvme盘

执行前
root@spdk:~# lsblk
NAME    MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda       8:0    0  7.3T  0 disk
└─sda1    8:1    0  7.3T  0 part /
sdb       8:16   0  7.3T  0 disk
sdc       8:32   0  7.3T  0 disk
sdd       8:48   0  3.8G  0 disk
└─sdd1    8:49   0  3.8G  0 part /boot
nvme0n1 259:0    0  1.5T  0 disk

root@spdk:~/github/spdk# HUGEMEM=8192 /root/github/spdk/scripts/setup.sh        
0000:02:00.0 (8086 0953): nvme -> uio_pci_generic
0000:00:04.0 (8086 2f20): ioatdma -> uio_pci_generic
0000:80:04.0 (8086 2f20): ioatdma -> uio_pci_generic
0000:00:04.1 (8086 2f21): ioatdma -> uio_pci_generic
0000:80:04.1 (8086 2f21): ioatdma -> uio_pci_generic
0000:00:04.2 (8086 2f22): ioatdma -> uio_pci_generic
0000:80:04.2 (8086 2f22): ioatdma -> uio_pci_generic
0000:00:04.3 (8086 2f23): ioatdma -> uio_pci_generic
0000:80:04.3 (8086 2f23): ioatdma -> uio_pci_generic
0000:00:04.4 (8086 2f24): ioatdma -> uio_pci_generic
0000:80:04.4 (8086 2f24): ioatdma -> uio_pci_generic
0000:00:04.5 (8086 2f25): ioatdma -> uio_pci_generic
0000:80:04.5 (8086 2f25): ioatdma -> uio_pci_generic
0000:00:04.6 (8086 2f26): ioatdma -> uio_pci_generic
0000:80:04.6 (8086 2f26): ioatdma -> uio_pci_generic
0000:00:04.7 (8086 2f27): ioatdma -> uio_pci_generic
0000:80:04.7 (8086 2f27): ioatdma -> uio_pci_generic

执行后
root@spdk:~# lsblk
NAME   MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda      8:0    0  7.3T  0 disk
└─sda1   8:1    0  7.3T  0 part /
sdb      8:16   0  7.3T  0 disk
sdc      8:32   0  7.3T  0 disk
sdd      8:48   0  3.8G  0 disk
└─sdd1   8:49   0  3.8G  0 part /boot

查看状态

root@spdk:~/github/spdk# /root/github/spdk/scripts/setup.sh status
Hugepages
node     hugesize     free /  total
node1   1048576kB        1 /      2

NVMe devices
BDF        Vendor    Device    NUMA    Driver        Device name
0000:02:00.0    8086    0953    0    uio_pci_generic        -

I/OAT Engine
BDF        Vendor    Device    NUMA    Driver
0000:00:04.0    8086    2f20    0    uio_pci_generic
0000:80:04.0    8086    2f20    1    uio_pci_generic
0000:00:04.1    8086    2f21    0    uio_pci_generic
0000:80:04.1    8086    2f21    1    uio_pci_generic
0000:00:04.2    8086    2f22    0    uio_pci_generic
0000:80:04.2    8086    2f22    1    uio_pci_generic
0000:00:04.3    8086    2f23    0    uio_pci_generic
0000:80:04.3    8086    2f23    1    uio_pci_generic
0000:00:04.4    8086    2f24    0    uio_pci_generic
0000:80:04.4    8086    2f24    1    uio_pci_generic
0000:00:04.5    8086    2f25    0    uio_pci_generic
0000:80:04.5    8086    2f25    1    uio_pci_generic
0000:00:04.6    8086    2f26    0    uio_pci_generic
0000:80:04.6    8086    2f26    1    uio_pci_generic
0000:00:04.7    8086    2f27    0    uio_pci_generic
0000:80:04.7    8086    2f27    1    uio_pci_generic

IDXD Engine
BDF        Vendor    Device    NUMA    Driver

virtio
BDF        Vendor    Device    NUMA    Driver        Device name

VMD
BDF        Numa Node    Driver Name

root@spdk:~# /root/github/spdk/scripts/setup.sh reset           重新bind nvme driver
0000:02:00.0 (8086 0953): uio_pci_generic -> nvme
0000:00:04.0 (8086 2f20): uio_pci_generic -> ioatdma
0000:80:04.0 (8086 2f20): uio_pci_generic -> ioatdma
0000:00:04.1 (8086 2f21): uio_pci_generic -> ioatdma
0000:80:04.1 (8086 2f21): uio_pci_generic -> ioatdma
0000:00:04.2 (8086 2f22): uio_pci_generic -> ioatdma
0000:80:04.2 (8086 2f22): uio_pci_generic -> ioatdma
0000:00:04.3 (8086 2f23): uio_pci_generic -> ioatdma
0000:80:04.3 (8086 2f23): uio_pci_generic -> ioatdma
0000:00:04.4 (8086 2f24): uio_pci_generic -> ioatdma
0000:80:04.4 (8086 2f24): uio_pci_generic -> ioatdma
0000:00:04.5 (8086 2f25): uio_pci_generic -> ioatdma
0000:80:04.5 (8086 2f25): uio_pci_generic -> ioatdma
0000:00:04.6 (8086 2f26): uio_pci_generic -> ioatdma
0000:80:04.6 (8086 2f26): uio_pci_generic -> ioatdma
0000:00:04.7 (8086 2f27): uio_pci_generic -> ioatdma
0000:80:04.7 (8086 2f27): uio_pci_generic -> ioatdma

查找traddr（参考 https://www.jianshu.com/p/eeaf81ffb7b5）
root@spdk:~# lspci | grep SSD
02:00.0 Non-Volatile memory controller: Intel Corporation PCIe Data Center SSD (rev 01)

root@spdk:~/ceph-deploy# lspci -mm -n -D -d 8086:0953
0000:02:00.0 "0108" "8086" "0953" -r01 -p02 "8086" "3709"

注意
由于spdk已经提前从系统中unbind了nvme设备，所以/dev/下是没有nvme设备的，必须指定到具体的pcie的接口上，fio的jobfile中的filename需要使用key=val的模式（这个地方有点怪异）
trttype：有pcie和rdma两种
traddr：pcie的“domain:bus:device:function”格式，可以用lspci命令查看对应的nvme设备在那个总线上，一般单台机器的domain都是0000
ns：namespace的id
spdk做性能测试时，对每个namespace会绑定一个lcore，所以fio的thread只能等于1
fio测试random的io时，需要设置norandommap=1 ，防止fio的random map影响性能

fio配置

root@spdk:~/github/spdk# cat /root/github/spdk/examples/nvme/fio_plugin/example_config.fio
[global]
ioengine=spdk
thread=1
group_reporting=1
direct=1
verify=0
time_based=1
ramp_time=0
runtime=2
iodepth=128
rw=randrw
bs=4k

[test]
numjobs=1
filename=trtype=PCIe traddr=02.00.0 ns=1

问题

提示：INFO：Requested 1024 hugepages but 8192 already allocated

root user memlock limit: 8MB

This is the maxinum amount of memory you will be

able to use whit DPDK and VFIO if run as user root

To change this, please adjust limits.conf memlock limit for user root;

查看一下文章中的内容；

SPDK 存储性能开发套件

SPDK.liblightnvm 提供了一个使用英特尔存储性能开发套件（Intel SPDK）实现的内核绕过后端。

安装 SPDK

在最新的Ubuntu长期支持版系统上，运行以下命令从源码安装SPDK：

# Make sure system is up to date
sudo apt-get update && sudo apt-get upgrade && sudo apt-get dist-upgrade

# Clone SPDK into /opt/spdk
sudo git clone https://github.com/spdk/spdk /opt/spdk
sudo chown -R $USER:$USER /opt/spdk

# Go to the repository
cd /opt/spdk

# Checkout the v18.07 release
git checkout v18.07
git submodule update --init

# Install dependencies
sudo ./scripts/pkgdep.sh
sudo apt-get install uuid-dev

# Configure and build it
./configure
make -j $(nproc)

# Check that it works
./test/unit/unittest.sh

# Install DPDK
cd /opt/spdk/dpdk
sudo make install

# Install SPDK
cd /opt/spdk
sudo make install

上一个 unittest.sh 命令的输出应该为：

=====================
All unit tests passed
=====================

解除设备绑定并设置内存

通过运行以下命令，将配置大页并使设备从内核NVMe驱动程序分离：

sudo HUGEMEM=8192 /opt/spdk/scripts/setup.sh

这应该输出类似内容：

0000:01:00.0 (1d1d 2807): nvme -> vfio-pci

如果上述内容是从setup.sh输出的其他内容，例如：

0000:01:00.0 (1d1d 2807): nvme -> uio_generic

Or: 或者：

Current user memlock limit: 16 MB

This is the maximum amount of memory you will be
able to use with DPDK and VFIO if run as current user.
To change this, please adjust limits.conf memlock limit for current user.

## WARNING: memlock limit is less than 64MB
## DPDK with VFIO may not be able to initialize if run as current user.

然后查阅关于无限制启用“VFIO”的说明。

重新绑定设备

运行以下命令：

sudo /opt/spdk/scripts/setup.sh reset

输出内容应类似于：

0000:01:00.0 (1d1d 2807): vfio-pci -> nvme

设备标识符

由于设备在 /dev 中不再可用，因此将使用 SPDK 表示法来表示PCI ID，例如 traddr:0000:01:00.0，例如使用命令行界面：

sudo nvm_dev info traddr:0000:01:00.0

并且使用API的话，情况会类似如下：

...
struct nvm_dev *dev = nvm_dev_open("traddr:0000:01:00.0");
...

构建支持SPDK的liblightnvm

有了SPDK后，使用以下命令配置liblightnvm的构建：

make spdk_on configure build

将您的源文件与liblightnvm和SPDK相链接

Invoke like so: 调用方式如下：

gcc hello.c -o hello \
  -fopenmp \
  -llightnvm \
  -lspdk_nvme \
  -lspdk_util \
  -lspdk_log \
  -lspdk_env_dpdk \
  -lrte_bus_pci \
  -lrte_eal \
  -lrte_mempool \
  -lrte_mempool_ring \
  -lrte_pci \
  -lrte_ring \
  -lrt \
  -ldl \
  -lnuma \
  -luuid

上述内容编译了快速入门指南中的示例，请注意，代码中有一个硬编码的设备标识符，你必须更改此标识符以匹配 SPDK 标识符。

无限制启用`VFIO`

如果nvme重新绑定到uio_generic而不是vfio，那么VT-d可能不受支持或已禁用。无论哪种情况，尝试以下两个步骤：

验证您的CPU支持VT-d且已在BIOS中启用。
通过提供内核选项来启用内核。如果你使用的不是英特尔CPU，请查阅关于为你的CPU启用VT-d/IOMMU的文档。
增加限制，打开/etc/security/limits.conf并添加：

*    soft memlock unlimited
*    hard memlock unlimited
root soft memlock unlimited
root hard memlock unlimited

完成这些步骤后，执行以下命令：

dmesg | grep -e DMAR -e IOMMU

应包含：

[    0.000000] DMAR: IOMMU enabled

并且这条这条命令：

find /sys/kernel/iommu_groups/ -type l

输出应类似于：

/sys/kernel/iommu_groups/7/devices/0000:00:1c.5
/sys/kernel/iommu_groups/5/devices/0000:00:17.0
/sys/kernel/iommu_groups/3/devices/0000:00:14.2
/sys/kernel/iommu_groups/3/devices/0000:00:14.0
/sys/kernel/iommu_groups/11/devices/0000:03:00.0
/sys/kernel/iommu_groups/1/devices/0000:00:01.0
/sys/kernel/iommu_groups/1/devices/0000:01:00.0
/sys/kernel/iommu_groups/8/devices/0000:00:1d.0
/sys/kernel/iommu_groups/6/devices/0000:00:1c.0
/sys/kernel/iommu_groups/4/devices/0000:00:16.0
/sys/kernel/iommu_groups/2/devices/0000:00:02.0
/sys/kernel/iommu_groups/10/devices/0000:00:1f.6
/sys/kernel/iommu_groups/0/devices/0000:00:00.0
/sys/kernel/iommu_groups/9/devices/0000:00:1f.2
/sys/kernel/iommu_groups/9/devices/0000:00:1f.0
/sys/kernel/iommu_groups/9/devices/0000:00:1f.4

And SPDK setup: 以及SPDK设置：

sudo HUGEMEM=8192 /opt/spdk/scripts/setup.sh

Should rebind the device to vfio-pci, eg.:应将设备重新绑定到 vfio-pci，例如：

0000:01:00.0 (1d1d 2807): nvme -> vfio-pci

HUGEPAGES检查并手动更改可用内存，也称为

安装脚本提供了环境变量，以通过[未提及具体方式]来控制可用内存量。但是，如果你想手动更改或只是查看配置，请参考以下内容。

通过运行以下命令检查系统配置：

grep . /sys/devices/system/node/node0/hugepages/hugepages-2048kB/*

如果你尚未运行设置脚本，那么它很可能输出：

/sys/devices/system/node/node0/hugepages/hugepages-2048kB/free_hugepages:0
/sys/devices/system/node/node0/hugepages/hugepages-2048kB/nr_hugepages:0
/sys/devices/system/node/node0/hugepages/hugepages-2048kB/surplus_hugepages:0

运行设置脚本后，它应该输出：

/sys/devices/system/node/node0/hugepages/hugepages-2048kB/free_hugepages:1024
/sys/devices/system/node/node0/hugepages/hugepages-2048kB/nr_hugepages:1024
/sys/devices/system/node/node0/hugepages/hugepages-2048kB/surplus_hugepages:0

这表明有大小为的大页可用，也就是说，总共可以使用2GB。

增加可用于的内存的一种方法是增加大页的数量。例如，通过将增加到，将内存从2GB增加到8GB：

echo "4096" > /sys/devices/system/node/node0/hugepages/hugepages-2048kB/nr_hugepages

完成此操作后，检查配置应输出：

/sys/devices/system/node/node0/hugepages/hugepages-2048kB/free_hugepages:4096
/sys/devices/system/node/node0/hugepages/hugepages-2048kB/nr_hugepages:4096
/sys/devices/system/node/node0/hugepages/hugepages-2048kB/surplus_hugepages:0

发表在 linux文章 | 留下评论

SPDK优秀文章

发表于2025-07-07由麦芽爸

SPDK官方中文技术文章

美团

速度与压缩比如何兼得？压缩算法在构建部署中的优化

一篇文章让你入门，SPDK自动精简配置的逻辑卷使用

发表在 linux文章 | 留下评论

2024新加坡市场程序员低投入高回报副业创意

发表于2025-07-07由麦芽爸

2024新加坡市场程序员低投入高回报副业创意 – LinuxGuide 2024新加坡 2024新加坡LinuxGuide

2025新加坡市场程序员低投入高回报副业创意 – LinuxGuide 2025新加坡 2025新加坡LinuxGuide

🖥️ 一、平台接单型：技术外包变现

1. 用户体验测试（UserTesting）

投入要求：电脑+麦克风，无需资金投入。
操作路径：注册UserTesting → 完成网站/App测试任务（15–20分钟/单）→ 录制操作视频并反馈 → 每单赚10（约13.4新元），月入可达200–$500。
新加坡优势：全英文任务为主，适合本地双语者；PayPal直接收款，无地域限制。

2. 技术文档翻译（Gengo）

投入要求：双语能力（中英）+专业术语库。
操作路径：通过Gengo技能测试 → 接技术文档翻译（如API文档、产品说明书）→ 基础级0.06/词，高级0.12/词 → 单份350词文件可赚21–42（29–58新元）。
高回报策略：专注AI、区块链等高价领域，单价提升30%。

3. 编程自由职业（Upwork/Freelancer.sg）

投入要求：技能专精（如Shopify插件/数据分析）。
操作路径：
- 定位新加坡高需领域：政府网站重构（GST申报系统优化）、电商工具开发（Lazada/Shopee自动化上架工具）。
- 时薪40–120，项目制300–3000/单。

📱 二、内容创作型：知识杠杆化

1. 垂直领域技术博客（Substack/YouTube）

投入要求：域名+服务器（年成本<100新元）。
操作路径：
- 选题：新加坡政策相关技术解读（如AI治理框架、CBDC试点）。
- 变现：广告（AdSense）+付费订阅（例：金融科技周报定价5/月）→ 千粉博客月入500+。

2. 编程教程售卖（Gumroad/ManyTutors）

投入要求：录制设备+课程设计。
案例：开发Python自动化办公课（针对新加坡企业行政痛点）：
- 预录课定价50/套 → 通过LinkedIn定向推广至本地中小企业 → 月销20套即赚1000。

⚙️ 三、产品开发型：被动收入引擎

1. 微型SaaS工具（面向东南亚市场）

投入要求：云服务器（月$10起）+基础代码。
高回报案例：
- 跨境税计算器：对接新加坡GST+马来西亚SST规则，企业订阅15/月 → 百用户月入1500。
- WhatsApp自动化插件：解决本地中小商家群发营销需求，一次性收费30/授权 → 月售50份赚1500。

2. 图库摄影（Shutterstock/Adobe Stock）

投入要求：手机/相机拍摄技术类主题（如智慧城市、金融科技界面）。
收益：每张下载0.14–8.01 → 上传100张优质图，月被动收入50–300。

📍 四、本地化服务型：技术赋能传统行业

1. 中小企业数字化顾问

投入要求：行业Know-How+基础工具（如Excel VBA/Power BI）。
操作路径：
- 帮小贩中心开发自动订货系统（替代人工记账）→ 收费$500/套。
- 为本地诊所设计预约排队小程序 → 月维护费$50/家。

2. 活动技术支援（Quest平台）

投入要求：便携设备+快速部署能力。
案例：承接展会AR互动程序开发 → 单次活动收费200–500（平台抽成10%）。

⚠️ 五、新加坡合规与提效贴士

方向	关键注意事项
签证限制	EP/SP持有者每周兼职≤16小时，优先接跨国项目（如美国公司远程单）避嫌。
税务申报	年副业收入>6,000新元需主动申报；注册独资企业可抵扣设备/培训费用。
冷启动渠道	加入新加坡开发者Slack群组接转包项目；通过椰子帮对接本地探店技术测评需求。

💡 终极公式：技术复用 × 本地需求 = 低投入高回报

例：将已开发的电商爬虫工具适配新加坡平台（Carousell/Qoo10），节省80%开发时间。

避开重运营项目（如定制化ERP），选择2周内可上线MVP的领域（Chrome扩展/API服务）。

资源包：

合同模板：HelloSign新加坡电子签（防纠纷）
需求洞察：订阅IMDA Tech News（获取政策商机）

发表在 linux文章 | 留下评论

xxd 二进制文件编辑命令学习方案

发表于2025-07-02由麦芽爸

xxd 学习方案

一、命令介绍

（一）基本功能

xxd 是一款在 Linux 和 Unix 系统中广泛使用的二进制文件查看与转换工具。它的核心功能是将二进制文件以十六进制或 ASCII 文本的形式显示出来，同时也支持将十六进制或 ASCII 文本转换回二进制文件。通过这种方式，用户能够方便地查看和编辑二进制文件的内容，对于处理二进制数据、分析文件结构等任务非常有用。

（二）语法格式

xxd [options] [infile [outfile]]

其中，infile是输入文件的名称，如果不指定输入文件，xxd 会从标准输入读取数据；outfile是输出文件的名称，如果不指定输出文件，xxd 会将结果输出到标准输出。

（三）常用选项

选项	说明
-b	以二进制格式输出
-c <字节数>	设置每行显示的字节数，默认值为 16
-g <分组数>	将十六进制字节分成指定数量的组，每组之间用空格分隔，默认值为 2
-h	显示帮助信息
-l <长度>	指定要处理的输入数据的长度（以字节为单位）
-o <偏移量>	设置输入文件的起始偏移量（以字节为单位）
-p	以纯十六进制格式输出，不显示 ASCII 字符和偏移地址
-r	将十六进制或 ASCII 文本转换回二进制文件
-s <偏移量>	设置输入文件的起始偏移量（可以使用十进制、十六进制或八进制表示，例如 0x10 表示十六进制的 16）
-u	以大写字母显示十六进制数字

二、使用入门

（一）查看二进制文件

假设我们有一个名为test.bin的二进制文件，我们可以使用以下命令来查看它的内容：

xxd test.bin

执行该命令后，xxd 会默认以十六进制格式显示文件内容，每行显示 16 个字节，左边是偏移地址（以十六进制表示），中间是十六个字节的十六进制表示，右边是对应的 ASCII 字符（不可打印字符用.表示）。例如：

00000000: 4865 6c6c 6f20 576f 726c 6421 0a00        Hello World!..

（二）转换十六进制文本回二进制文件

如果我们有一个十六进制文本文件test.hex，可以使用-r选项将其转换回二进制文件：

xxd -r test.hex test.bin

（三）指定每行显示的字节数

使用-c选项可以设置每行显示的字节数，例如每行显示 8 个字节：

xxd -c 8 test.bin

（四）纯十六进制输出

如果只需要显示十六进制数字，不显示偏移地址和 ASCII 字符，可以使用-p选项：

xxd -p test.bin

（五）设置起始偏移量

当我们需要查看文件中某个特定区域的内容时，可以使用-s选项设置起始偏移量。例如，从偏移量 0x10（十六进制的 16）开始查看：

xxd -s 0x10 test.bin

三、高级技巧

（一）自定义输出格式

通过组合使用-c、-g等选项，可以自定义输出的格式。例如，设置每行显示 20 个字节，每 4 个字节分为一组：

xxd -c 20 -g 4 test.bin

（二）处理特定区域的数据

使用-s选项指定起始偏移量，结合-l选项指定处理的长度，可以仅处理文件中特定区域的数据。例如，从偏移量 0x20 开始，处理 32 个字节的数据：

xxd -s 0x20 -l 32 test.bin

（三）与其他工具结合使用

xxd 可以与其他 Linux 工具通过管道结合使用，实现更强大的功能。例如，使用grep命令搜索特定的十六进制模式：

xxd test.bin | grep "4865"

这将查找文件中包含十六进制4865（对应 ASCII 字符He）的行。

（四）二进制数据编辑

虽然 xxd 本身不具备直接编辑二进制文件的功能，但可以通过将二进制文件转换为十六进制文本，使用文本编辑器进行修改，然后再转换回二进制文件的方式来实现间接编辑。具体步骤如下：

将二进制文件转换为十六进制文本：

xxd test.bin > test.hex

使用文本编辑器（如 vi、nano 等）打开test.hex文件，进行修改。
将修改后的十六进制文本转换回二进制文件：

xxd -r test.hex > test_new.bin

四、常见使用场景

（一）逆向工程

在逆向工程中，开发人员需要分析二进制文件的结构和内容，xxd 可以帮助他们以十六进制和 ASCII 的形式查看二进制文件，从而了解文件中各个部分的数据格式和含义。例如，分析可执行文件的机器码、数据段中的字符串等。

（二）数据恢复

当文件损坏或丢失部分数据时，数据恢复人员可以使用 xxd 查看文件的二进制内容，尝试从中恢复有用的信息。通过分析文件的头部、数据块等区域的十六进制数据，判断文件的格式和结构，进而进行数据修复或提取。

（三）网络安全

在网络安全领域，安全人员需要对恶意软件、病毒样本等二进制文件进行分析。xxd 可以帮助他们查看文件中的代码、字符串、资源等信息，寻找恶意行为的特征和线索。例如，查找文件中包含的网络地址、加密密钥等敏感信息。

（四）嵌入式开发

在嵌入式开发中，经常需要处理固件文件、二进制驱动程序等。xxd 可以用于查看这些文件的内容，确保文件的完整性和正确性。同时，在与硬件交互时，可能需要将特定的二进制数据写入硬件寄存器或存储设备，xxd 可以帮助开发人员生成正确的二进制数据格式。

（五）文件比较

当需要比较两个二进制文件的差异时，可以分别使用 xxd 将它们转换为十六进制文本，然后使用文本比较工具（如 diff）进行比较。这样可以更直观地看出两个文件在字节层面上的不同之处。

通过以上学习方案，学习者可以全面掌握 xxd 命令的使用方法，从基本的文件查看和转换，到高级的自定义输出和与其他工具的结合使用，再到在实际场景中的应用。在学习过程中，建议学习者通过实际操作练习，加深对 xxd 命令的理解和掌握。

发表在 linux文章 | 留下评论

IPv4和IPv6头部介绍

发表于2025-06-28由麦芽爸

IPv4和IPv6头部介绍

IPv4与IPv6头部对比详解，了解网络协议核心结构，掌握关键差异与技术优势。

IPv4（Internet Protocol version 4）头部是网络层协议的核心组成部分，用于控制数据包的路由、分片和传输。其结构固定最小长度为20字节（不含可选字段），最大可扩展至60字节。

以下是IPv4头部的详细解析：

📌 IPv4头部结构

IPv4头部包含13个字段，按32位（4字节）对齐排列：

版本（Version, 4位）
- 标识IP协议版本号，IPv4固定为4（二进制0100）。
头部长度（IHL, 4位）
- 表示头部长度，单位：4字节。
- 最小值为5（对应20字节），最大为15（60字节）。
服务类型（Type of Service, 8位）
- 用于QoS（服务质量控制），可标记流量优先级（如低延迟、高吞吐量）。
- 现代网络中多用于DSCP（差分服务代码点）。
总长度（Total Length, 16位）
- 整个IP数据包的长度（头部+数据），最大65,535字节 。
标识符（Identification, 16位）
- 唯一标识数据包，用于分片重组。同一数据包的所有分片共享此标识。
标志（Flags, 3位）
- 第1位：保留（恒为0）。
- 第2位（DF, Don’t Fragment）：
  - 若置1，禁止分片（用于路径MTU发现）。
- 第3位（MF, More Fragments）：
  - 若置1，表示后续还有分片；最后一个分片为0。
片偏移（Fragment Offset, 13位）
- 指示分片在原始数据中的位置，单位：8字节。
- 例如：偏移值185 → 实际位置 185×8=1,480字节。
生存时间（TTL, 8位）
- 数据包最大可经过的路由器跳数，每经一跳减1，归零则丢弃（防止环路）。
协议（Protocol, 8位）
- 标识上层协议类型：
  - 6=TCP、17=UDP、1=ICMP、88=EIGRP等。
头部校验和（Header Checksum, 16位）
- 仅校验头部完整性（不包含数据部分），每经路由器需重新计算。
源地址（Source Address, 32位）
- 发送方的IPv4地址（如192.168.1.1）。
目标地址（Destination Address, 32位）
- 接收方的IPv4地址。
选项字段（Options, 可变长度）
- 用于扩展功能（如安全选项、路由记录），实际极少使用，需填充至32位边界。

⚖️ 关键机制解析

1. 分片与重组

分片条件：当数据包总长度超过链路层MTU（如以太网MTU=1500字节）时触发。
重组规则：
- 接收方通过标识符匹配同一数据包的分片。
- 片偏移和MF标志确定分片顺序与完整性。
- 若分片丢失，整个数据包需重传（影响传输效率）。

2. TTL防环机制

TTL初始值由操作系统设定（Linux默认为64，Windows为128）。
归零时触发ICMP超时消息（Type 11），用于traceroute路径跟踪。

随着IPv6的普及，其固定头部和扩展链设计显著提升了转发效率，逐步替代IPv4的复杂结构。IPv6的头部结构相较于IPv4进行了优化设计，以提升处理效率和扩展性。以下是IPv6头部的主要组成及特点：

IPv4头部通过20字节固定结构+可选字段实现灵活的路由控制，但分片机制和校验和计算增加了处理开销。

关键字段如TTL、协议号、标识符分别解决环路防护、协议交付和分片重组问题。

一、基本头部结构

IPv6基本头部固定为40字节，包含以下8个核心字段：

版本（Version，4位）：标识协议版本，固定为6。
流量类别（Traffic Class，8位）：用于服务质量（QoS）控制，可对数据包进行优先级分类（如实时音视频流量优先）。
流标签（Flow Label，20位）：标记同一业务流的数据包，支持特定流量的高效处理（如视频流传输）。
有效载荷长度（Payload Length，16位）：指示扩展头部和上层数据的总长度（不含基本头部），最大支持65535字节。
下一个头部（Next Header，8位）：指明后续头部类型，可以是扩展头部（如路由选项）或上层协议（如TCP/UDP）。此字段是IPv6灵活扩展的核心。
跳数限制（Hop Limit，8位）：类似IPv4的TTL，每经过一个路由器减1，归零时丢弃数据包。
源地址（Source Address，128位）：发送方的IPv6地址。
目的地址（Destination Address，128位）：接收方的IPv6地址。

二、扩展头部设计

IPv6通过扩展头部实现功能扩展，支持按需添加多种选项：

逐跳选项头（Hop-by-Hop Options）：路径中所有节点需处理的选项（如巨型包标识）。
路由头（Routing）：指定数据包传输路径的中间节点列表。
分片头（Fragment）：由源节点完成分片，中间路由器不再处理分片（简化处理流程）。
认证头（Authentication）：提供数据完整性验证。
封装安全载荷头（ESP）：支持加密传输。
目的选项头（Destination Options）：仅由目的节点处理的选项。

扩展头部通过“下一个头部”字段串联，形成链式结构，实现功能模块化。

三、与IPv4的对比改进

固定头部长度：IPv6基本头部固定为40字节，而IPv4头部可变（20-60字节），简化了路由器处理流程。
去除冗余字段：
- 取消头部校验和：依赖数据链路层和传输层（如TCP/UDP）校验。
- 移除分片相关字段（分片由源节点完成）。
流标签支持：新增20位流标签，优化实时业务流的服务质量。

四、示例结构

+-------------+-------------+-----------------+-------------------+
| 版本 (4位) | 流量类别 (8位) | 流标签 (20位)   | 有效载荷长度 (16位)|
+-------------+-------------+-----------------+-------------------+
| 下一个头部 (8位)          | 跳数限制 (8位)  | 源地址 (128位)    |
+---------------------------+-----------------+-------------------+
| 目的地址 (128位)          | 扩展头部（可选） | 数据载荷          |
+---------------------------+-----------------+-------------------+

总结

IPv6通过固定头部、链式扩展设计及功能精简，显著提升了网络传输效率和灵活性，同时为未来协议演进提供了扩展空间。其核心改进包括固定头部长度、流标签支持、分片机制优化等，这些特性使其更适合现代高带宽、低延迟的应用场景。

🔍 IPv4与IPv6头部对比

特性	IPv4	IPv6
头部长度	20~60字节（可变）	固定40字节
地址长度	32位	128位
分片字段	包含（标识、标志、片偏移）	移至扩展头部
校验和	有（仅头部）	取消，依赖上层协议校验
流标签	无	20位，支持QoS流量分类

IPv4和IPv6头部对比, IPv4头部结构详解, IPv6头部特点分析, IPv4与IPv6协议区别, IPv4头部字段解释, IPv6头部组成说明, IPv4和IPv6头部差异, 网络协议IPv4头部, IPv6头部信息介绍, IPv4和IPv6协议头部比较

发表在 linux文章 | 留下评论

C语言集成ip2region库

发表于2025-06-28由麦芽爸

以下是使用C语言集成ip2region库的简单Demo，基于官方文档及搜索结果中的核心信息整理：

1. 环境准备

下载源码
从 ip2region GitHub仓库克隆代码，重点关注binding/c目录下的C语言实现。
获取数据库文件
将仓库中data/ip2region.xdb文件拷贝至项目目录（如/data/）。

2. 核心代码示例

#include <stdio.h>
#include <stdlib.h>
#include "ip2region.h"

int main(int argc, char *argv[]) {
    // 1. 初始化查询引擎（B树算法）
    IP2Region *region = IP2Region_create("data/ip2region.xdb"); // 数据库路径
    if (region == NULL) {
        fprintf(stderr, "Error: Failed to load database\n");
        return EXIT_FAILURE;
    }

    // 2. 输入待查询的IP地址
    if (argc != 2) {
        printf("Usage: %s <IP地址>\n", argv[0]);
        IP2Region_destroy(region);
        return EXIT_FAILURE;
    }
    const char *ip = argv[1];

    // 3. 执行查询
    IP2RegionBlock block;
    int ret = IP2Region_btree_search(region, ip, &block);
    if (ret != 0) {
        printf("查询失败，请检查IP格式或数据库路径\n");
        IP2Region_destroy(region);
        return EXIT_FAILURE;
    }

    // 4. 输出结果
    printf("IP: %s\n", ip);
    printf("地区信息: %s|%s|%s|%s|%s\n", 
           block.country, block.region, block.province, block.city, block.isp);
    
    // 5. 释放资源
    IP2Region_destroy(region);
    return EXIT_SUCCESS;
}

3. 编译与运行

编译指令 gcc -o ip_query main.c ip2region.c -O2 说明：需将ip2region.h和ip2region.c从仓库的binding/c目录复制到项目路径。
执行查询 ./ip_query 8.8.8.8 输出示例： IP: 8.8.8.8 地区信息: 美国|0|0|0|谷歌

4. 关键函数解析

IP2Region_create()
初始化查询引擎，支持文件路径或内存加载（内存模式需先用IP2Region_load_buffer加载数据）。
IP2Region_btree_search()
使用B树算法查询IP，返回结构体IP2RegionBlock包含国家、省份、城市等信息。
IP2Region_destroy()
释放查询引擎占用的资源，避免内存泄漏。

5. 扩展配置

切换算法
若需使用binary或memory算法，替换IP2Region_btree_search()为： IP2Region_binary_search() // 二分查找 IP2Region_memory_search() // 内存加速（需预加载数据库到内存）
性能优化
- 高频查询推荐memory模式：预加载.xdb到内存，查询速度可达微秒级。
- 多线程场景需为每个线程创建独立的查询对象。

6. 常见问题

数据库路径错误
确保.xdb文件路径正确，或使用绝对路径。
IP格式校验
调用IP2Region_isip()函数验证IP合法性。

通过此Demo可快速实现IP地址的离线定位功能。如需更完整示例，可参考仓库binding/c/testSearcher.c文件。

发表在 linux文章 | 留下评论

写入SSD时磁盘写入抖动的解决方案

发表于2025-06-28由麦芽爸

在Linux文件写入软件设计中，直接写入SSD时磁盘写入抖动（I/O延迟波动）的解决方案需结合内核机制、SSD特性及编程实践，以下是综合优化策略：

⚙️ 一、内核层优化（平滑写入峰值）

脏页回写控制
- 降低脏页阈值： echo 5 > /proc/sys/vm/dirty_background_ratio # 后台回写触发比例降至5% echo 10 > /proc/sys/vm/dirty_ratio # 阻塞写入阈值降至10% echo 100 > /proc/sys/vm/dirty_writeback_centisecs # 回写周期缩短至1秒 减少脏页积压，避免突发刷盘导致I/O尖峰。
- 启用透明大页（THP）：合并小I/O为2MB大页写入，降低SSD写入放大。
I/O调度器调优
- SSD场景启用deadline调度器： echo deadline > /sys/block/nvme0n1/queue/scheduler 减少I/O合并延迟，优先保障请求截止时间。
- 增大队列深度：提升NVMe SSD并发能力（需平衡内存开销）。

📁 二、软件设计实践（减少写入冲突与抖动）

写入模式优化
- 聚合小写入：合并随机小I/O为顺序大块写入（如4KB→1MB），减少FTL转换压力。
- 对齐写入地址：按SSD页大小（通常4KB）对齐数据，避免跨页写入放大。
- 慎用O_DIRECT：绕过页缓存可减少内存占用，但需严格对齐且可能降低吞吐。
同步机制与GC协同
- 显式刷盘控制：关键数据用fsync()强制落盘，非关键数据依赖异步回写。
- 避免密集fsync()：高频同步触发GC抢占带宽，改用批量提交（如日志缓冲刷盘）。
- 分离高低频写入：日志等高频写入独立至专用SSD，避免与数据盘竞争。
TRIM策略优化
- 定时触发TRIM：业务低谷期执行fstrim，减少读延迟受GC干扰。
- 启用discard挂载选项：实时标记无效数据（需SSD支持），但可能增加瞬时负载。

🛠️ 三、SSD底层行为适配

缓解写入放大（WA）
- 预留OP空间：分配20%未使用空间，降低GC频率并提升稳态性能。
- 选择支持”擦写暂停”的企业级SSD：GC过程可暂停以优先响应主机I/O。
规避GC引发的抖动
- 稳态负载测试：SSD需预热至稳态（如4K随机写持续30分钟），避免初始高性能假象。
- 监控FTL状态：通过nvme-cli查看SSD内部延迟（需硬件支持Latency Monitoring）。

📊 四、监控与资源隔离

实时诊断工具
- blktrace + btt：分析I/O在Linux I/O栈各阶段耗时（如D2C=驱动到硬件延迟）。
- iostat -x：观察await（I/O平均等待时间）突增点，关联业务负载。
Cgroup限流干扰进程 # 限制非关键进程写带宽为100MB/s echo "259:0 104857600" > /sys/fs/cgroup/blkio/app_grp/blkio.throttle.write_bps_device 防止次要任务抢占I/O带宽。

💎 场景化优化总结

场景	核心措施
高频小文件写入	聚合写入+批量`fsync`、启用`deadline`调度器
混合读写负载	分离日志与数据盘、预留OP空间、监控FTL GC行为
低延迟强一致性	对齐`O_DIRECT`写入、选择支持擦写暂停的SSD
多进程并发写入	Cgroup限流、文件锁（`fcntl`）避免写冲突

关键设计原则：

写入流线性化：通过合并与顺序化降低SSD内部FTL复杂度；

GC友好性：避免突发写入占满带宽，预留SSD喘息空间执行后台回收；

分层隔离：硬件（专用盘）、内核（Cgroup）、应用（同步策略）协同削峰。

排查流程图解

graph TD
    A[观测I/O抖动] --> B{blktrace分析延迟来源}
    B -->|D2C延迟高| C[SSD硬件/FTL问题]
    B -->|I2D延迟高| D[内核/文件系统瓶颈]
    C --> C1[检查TRIM时机]
    C --> C2[监控SSD内部GC状态]
    D --> D1[调整脏页参数]
    D --> D2[优化调度器/队列深度]

通过上述策略，可显著抑制SSD写入抖动。实际部署前需用fio模拟负载验证，尤其关注稳态随机写场景下的延迟一致性。

发表在 linux文章 | 留下评论

fio测试SSD直接I/O性能仅100MB/s的问题排查

发表于2025-06-28由麦芽爸

针对您使用fio测试SSD直接I/O（Direct IO）性能仅有100MB/s的问题，结合SSD特性和fio测试原理，以下是可能的原因及优化方案：

🔧 一、关键原因分析

接口或协议瓶颈
- SATA接口限制：若SSD通过SATA III（6Gb/s）连接，理论带宽上限为600MB/s，但实际性能可能受限于接口版本（如误接SATA II接口，上限仅300MB/s）或线材质量。
- PCIe通道配置问题：NVMe SSD若安装在PCIe 2.0 x4插槽（理论带宽2GB/s），实际速度可能降至1GB/s以下；若插槽为x1模式，带宽会进一步降至250MB/s左右。
fio参数配置不当
- 队列深度不足：iodepth=1 时SSD无法发挥并行性，企业级NVMe SSD需设置 iodepth=32~128 以激活并发能力（参考）。
- 块大小过小：bs=4k 测试随机IOPS时带宽较低，测试吞吐量应使用 bs=1m（大块顺序读写）。
- 引擎未启用异步：未使用 ioengine=libaio 时，同步写会阻塞进程，导致吞吐量下降（需安装 libaio-devel 包）。
文件系统与对齐问题
- 4K未对齐：分区或文件未按4K对齐时，SSD会触发”读-改-写”操作，写入放大导致性能腰斩（可通过 fdisk -l 检查起始扇区是否整除8）。
- 未启用TRIM：长期使用后垃圾回收（GC）占用带宽，需挂载时添加 discard 选项或定期执行 fstrim。
硬件或固件问题
- 过热降频：SSD温度 >70℃ 时主控会主动降频（性能下降30%~50%），需检查散热条件。
- 寿命耗尽：NAND磨损超过80%时纠错延迟剧增，通过SMART工具检查 05（重分配扇区数）和 B1（磨损计数）参数。

⚡ 二、优化方案与验证步骤

✅ 步骤1：调整fio参数（关键！）

# 大块顺序写测试吞吐量（目标：触发SSD峰值带宽）
fio --filename=/dev/nvme0n1 --direct=1 --rw=write --bs=1m --ioengine=libaio \
    --iodepth=64 --numjobs=4 --runtime=60 --group_reporting --name=write_test

# 随机读测试IOPS（排除带宽瓶颈）
fio --filename=/dev/nvme0n1 --direct=1 --rw=randread --bs=4k --ioengine=libaio \
    --iodepth=128 --runtime=60 --group_reporting --name=randread_test

参数说明：
- numjobs=4：多线程并发模拟高负载
- bs=1m：1MB大块提升吞吐量
- ioengine=libaio：必须启用异步引擎

✅ 步骤2：检查硬件配置

接口确认： lspci -vv | grep -i nvme # 查看PCIe链路速度（Speed）与宽度（Width） 正常应显示 Speed 8GT/s（PCIe 3.0）或 16GT/s（PCIe 4.0）, Width x4。
散热监控： nvme smart-log /dev/nvme0 | grep temperature 温度应 <70℃，否则需加装散热片。

✅ 步骤3：系统级优化

启用TRIM： # 临时触发 fstrim /mnt/ssd # 永久启用（/etc/fstab） UUID=... /mnt/ssd ext4 defaults,discard 0 0
内存锁避免Swap： echo 1 > /proc/sys/vm/swappiness # 降低Swap倾向

📊 三、性能异常排查表

现象	可能原因	验证命令
顺序写带宽仅100MB/s	SATA II接口/PCIe x1模式	`lspci -vv \| grep LnkSta`
随机读IOPS < 10k	`iodepth=1` 或未用libaio	检查fio参数中的iodepth和ioengine
测试中带宽持续下降	过热降频或GC占用带宽	`nvme smart-log /dev/nvme0`
延迟波动 >200μs	4K未对齐或NAND寿命耗尽	`fdisk -l` + `nvme smart-log`

💎 总结建议

优先验证接口与队列深度：80%的低性能问题源于 iodepth 不足或接口配置错误。
区分测试目标：
- 带宽测试 → bs=1m, rw=write
- IOPS测试 → bs=4k, rw=randread, iodepth=128
企业级SSD特殊优化：若使用NVMe SSD，更新固件并启用NS（Namespace）隔离可减少干扰。

⚠️ 注意：若优化后仍无改善，需用 blktrace 分析I/O栈延迟（例：blktrace -d /dev/nvme0n1 -o - \| blkparse -i -），定位内核或硬件层瓶颈。

发表在 linux文章 | 留下评论

从代码开发角度轻量云主机与云主机的区别

发表于2025-06-28由麦芽爸

从代码开发角度分析，轻量云主机与云主机的区别主要体现在开发环境搭建、资源适配性、运维成本及扩展能力等方面。以下是具体对比及优缺点分析：

一、开发环境搭建效率

轻量云主机
- 优点：预装开发镜像（如Docker、Node.js、Java环境等），支持一键部署开发工具链，例如通过宝塔面板快速配置LAMP/LEMP环境。适合快速启动测试环境，减少环境配置时间。
- 缺点：预置环境可能无法满足定制化需求，例如需要特定版本的语言框架或依赖库时需手动调整。
云主机
- 优点：提供纯净操作系统镜像，开发者可完全自定义环境（如编译内核、安装特定开发工具），适合复杂项目或需要深度定制的场景。
- 缺点：环境配置耗时较长，需自行处理依赖关系和安全策略（如防火墙规则），对新手不友好。

二、资源适配性与性能

轻量云主机
- 优点：固定套餐（如2核4G）满足轻量级开发需求（如个人项目、API调试），且成本低（约38元/年），适合预算有限的开发者。
- 缺点：共享vCPU可能导致编译、测试等高负载任务时性能波动；月流量限制可能影响持续集成（CI/CD）流水线的稳定性。
云主机
- 优点：独享计算资源（如8核16G），支持高并发编译、分布式测试及大规模数据处理，适合AI训练、大型微服务架构开发。
- 缺点：资源闲置时成本较高，按需付费模式下需精细管理资源利用率。

三、持续集成与部署（CI/CD）

轻量云主机
- 优点：集成基础运维功能（自动备份、监控告警），可通过API快速创建临时测试节点，适合小型团队的敏捷开发。
- 缺点：扩展性差，难以支持多环境并行构建（如同时运行开发、测试、预发布环境）。
云主机
- 优点：支持弹性伸缩，可动态创建实例组应对构建峰值，结合Kubernetes等工具实现自动化集群部署，提升CI/CD效率。
- 缺点：需额外配置负载均衡和网络策略，运维复杂度高。

四、安全性与数据管理

轻量云主机
- 优点：内置基础安全防护（如DDoS缓解、快照备份），适合非敏感数据的开发测试。
- 缺点：缺乏企业级安全功能（如私有网络隔离、入侵检测），生产环境需谨慎使用。
云主机
- 优点：支持VPC网络隔离、数据加密及跨地域灾备，符合金融、医疗等敏感场景的合规要求。
- 缺点：安全组规则配置复杂，需开发者具备网络安全知识。

五、迁移与跨平台兼容性

轻量云主机：镜像导出格式有限，迁移至其他平台时可能需重新适配环境。
云主机：支持标准化镜像格式（如qcow2、VMDK），兼容多云部署，降低跨平台开发成本。

总结建议

选择轻量云主机：适用于个人项目、短期测试或低流量API开发，优势在于低成本、快速启动。
选择云主机：适用于企业级开发、资源密集型任务及需要高可用架构的场景，优势在于性能与扩展性。

开发团队可根据项目阶段混合使用：初期用轻量云主机验证原型，业务成熟后迁移至云主机实现规模化部署。

发表在 linux文章 | 留下评论

单磁盘SSD启用和优化TRIM操作

发表于2025-06-28由麦芽爸

在Linux环境下针对单磁盘SSD启用和优化TRIM操作，是提升SSD性能与寿命的核心技术之一。以下从原理到实践为你展开详细说明：

⚙️ 一、TRIM的核心原理与重要性

SSD的写入机制
SSD基于NAND闪存，数据写入需先擦除再写入（Erase-Before-Write）。若未启用TRIM，删除文件时操作系统仅标记逻辑块为“可用”，但SSD主控无法感知这些块实际已无效。后续写入时需先擦除旧数据，导致 写入延迟增加（需额外执行“读-擦-写”操作）。
TRIM的作用机制
- 操作系统通过TRIM命令主动通知SSD哪些逻辑块已无效。
- SSD主控在后台垃圾回收（GC）时提前擦除这些块，避免写入时的额外延迟。
- 显著减少 写入放大（Write Amplification），延长SSD寿命并提升写入速度。

🛠️ 二、Linux下启用TRIM的三种方式

1. 手动执行TRIM（适合临时维护）

sudo fstrim -v /  # 对根分区执行TRIM，显示详情
sudo fstrim -v /home  # 指定其他挂载点

适用场景：偶尔维护或测试SSD支持性。

2. 定时自动TRIM（推荐长期使用）

通过systemd服务定期执行（默认每周一次）：

sudo systemctl enable fstrim.timer  # 启用定时器
sudo systemctl start fstrim.timer   # 立即启动

日志查看：journalctl -u fstrim.service 检查执行记录。

3. 挂载时启用自动TRIM（实时性高，但需谨慎）

在/etc/fstab中添加discard挂载选项：

UUID=xxxx / ext4 discard,noatime,errors=remount-ro 0 1

优点：文件删除时实时发送TRIM命令。
缺点：频繁小规模TRIM可能增加I/O延迟，对低端SSD造成性能抖动。

📂 三、文件系统支持与兼容性

支持TRIM的文件系统：
EXT4、Btrfs、XFS、F2FS等主流文件系统均原生支持。
EXT4优化建议：
- 启用noatime或relatime：避免记录文件访问时间戳，减少写入。
- 禁用日志（高风险操作）： tune2fs -O ^has_journal /dev/sda1 # 需卸载分区 仅建议对数据安全性要求低的场景（如临时服务器），否则可能引发崩溃。

⚙️ 四、高级配置与参数调优

使用fstrim命令时可指定精细化参数：

sudo fstrim --offset 0 --length 1048576 --minimum 4096 /  # 仅处理1MB范围，最小块4KB

参数说明：
- --offset / --length：限定TRIM操作区间。
- --minimum：仅处理大于此值的连续空闲块，提升碎片严重时的效率。

⚠️ 五、关键注意事项

内核版本要求
Linux内核 ≥ 2.6.33 才支持TRIM（推荐 ≥ 5.4 以获得稳定队列化TRIM）。
SSD硬件兼容性验证
检查SSD是否支持TRIM： sudo hdparm -I /dev/sda | grep "TRIM supported" 若输出* Data Set Management TRIM supported则支持。
避免RAID下的TRIM失效
单磁盘无需担忧，但若未来组RAID需注意：软RAID（如mdadm）需Linux 3.7+才支持TRIM传递。
部分SSD的兼容性问题
已知部分型号（如三星840系列、Crucial M500）的早期固件存在队列化TRIM Bug，需更新固件或内核规避。

🔧 六、TRIM方案对比与选择建议

方式	优点	缺点	适用场景
手动执行 (`fstrim`)	可控性强，无后台干扰	需人工介入，易遗忘	临时维护/测试环境
自动定时任务	全自动，周期合理（每周）	有最高1周延迟	大多数桌面/服务器环境 ✅
挂载选项 (`discard`)	实时生效，延迟最低	频繁I/O可能降低性能	低写入负载场景

💎 推荐策略：对桌面/服务器环境，启用systemd定时任务（fstrim.timer）是兼顾效率与稳定的最佳实践。

📊 验证TRIM效果

实时监控： sudo fstrim -v / # 观察输出字节数
底层数据擦除验证（参考）：
- 写入测试文件 → 记录其物理位置 → 删除文件 → 执行TRIM → 检查原位置数据是否被清零。

💎 总结

在Linux单磁盘SSD环境中，启用定期TRIM是必选项：

✅ 首选 systemd定时任务（fstrim.timer），平衡自动化与性能。
✅ 文件系统挂载参数添加 noatime，减少元数据写入。
⚠️ 避免滥用 discard 挂载选项（除非SSD主控已验证支持高频TRIM）。
🔄 定期检查SSD健康（smartctl -a /dev/sda）与TRIM日志，确保策略生效。

发表在 linux文章 | 留下评论

SSD ASPM活动状态电源管理的详细解析

发表于2025-06-28由麦芽爸

以下是关于 SSD ASPM（活动状态电源管理） 的详细解析，综合多个权威来源整理而成：

⚙️ 1. ASPM 的核心原理与工作模式

ASPM 是 PCIe 设备（包括 SSD）的硬件自主节能技术，无需主机软件干预即可动态调整 PCIe 链路的功耗状态。

L0s 模式（快速恢复）：
- 链路进入电气空闲（Electrical Idle），时钟仍运行，恢复延迟极短（通常 <1μs）。
- 适用于短暂空闲场景，节能效果适中。
L1 模式（深度节能）：
- 功耗更低，但恢复延迟较长（毫秒级）。
- 支持动态调整链路宽度和速率（如 2.5Gbps/5Gbps切换），进一步优化能耗。
协同机制：
- 设备在空闲时自动切换至 L0s/L1，有数据传输时瞬间恢复至全速状态（L0）。

🌡️ 2. ASPM 对 SSD 的实际价值

节能降温效果

功耗对比：
- 全速状态（L0）：约 3.3W（PS0 状态）。
- L1 深度睡眠：可降至 5mW 以下（PS4 状态）。
温度控制：
- 开启 ASPM 后，SSD 待机温度可降低 10~20°C（实测案例：东芝 RC500 降温 12°C）。
- 为高负载读写预留温度空间，避免过热限速。

性能影响

多数原厂 SSD（如东芝、长江存储）开启 ASPM 后性能损失极小（PCMark 8 评分不变）。
部分非原厂 SSD 可能因兼容性问题出现性能下降，需实测验证。

⚡️ 3. 启用 ASPM 的配置方法

BIOS 设置

进入 BIOS 的 Advanced（高级）或 Power Management（电源管理）选项。
启用以下设置：
- Native ASPM：设为 Enabled。
- PCIe Root Port ASPM：选择 L1 Substates。
- 关闭无关设备的 ASPM（如独立显卡）以专注 SSD 优化。

Windows 电源设置

控制面板 → 电源选项 → 更改计划设置 → 高级电源设置。
展开 PCI Express → 链接状态电源管理：
- 选择 最大电源节省量（启用 L0s + L1）。
💡 注意：笔记本电脑默认开启 ASPM；台式机需手动设置。

⚠️ 4. 注意事项与兼容性

硬件支持：
- SSD 需支持 ASPM（查看规格书或工具检测）。
- 主板 PCIe 接口需兼容 L1 子状态（L1.1/L1.2）。
软件协同：
- ASPM 需与 NVMe 电源状态（如 PS3/PS4）协同工作，由操作系统调度。
异常处理：
- 若开启后出现设备识别失败，启用 Extended Sync 模式（增加链路同步时间）。

🔄 5. ASPM 与其他节能技术的关系

技术	控制层级	适用场景
ASPM	PCIe 链路层	数据传输间隙节能
NVMe APST	SSD 主控层	空闲时切换低功耗状态
PCI-PM (D状态)	设备全局状态	长期休眠（如 D3hot）

三者协同：ASPM 在设备活跃时（D0）管理链路；APST 控制 SSD 内部模块开关；PCI-PM 处理深度休眠。

💎 总结

ASPM 是 PCIe SSD 节能的核心技术，兼顾能效与性能，尤其适合笔记本和移动设备。通过简单设置即可显著降低待机功耗与温度，且原厂 SSD 几乎无性能损失。建议用户优先在 BIOS 和系统中启用 最大电源节省量，并关注硬件兼容性以发挥最佳效果。

发表在 linux文章 | 留下评论

sendfile系统调用在文件到文件场景下的性能分析

发表于2025-06-28由麦芽爸

关于 sendfile() 系统调用在文件到文件拷贝场景下的性能问题，结论很明确：通常不会变好，反而会变差。使用 cp、read() + write() 或专门的拷贝工具（如 rsync、cp --reflink=auto 等）几乎是更好的选择。

以下是详细分析：

sendfile() 的设计初衷：网络加速
- sendfile() 的主要目标是高效地将数据从一个打开的文件描述符（通常是文件）直接传输到一个网络套接字描述符（socket）。
- 它的核心优势在于避免数据在内核态和用户态之间不必要的拷贝：零拷贝 (Zero-Copy)。
- 在传统的 read()（文件 -> 用户空间缓冲区） + write()（用户空间缓冲区 -> socket）流程中，数据需要从内核的页缓存拷贝到用户空间缓冲区，然后用户空间缓冲区再拷贝回内核的 socket 缓冲区。这个过程涉及两次上下文切换和两次数据拷贝。
- sendfile() 则允许内核直接从源文件的页缓存将数据复制到目标 socket 的缓冲区中，避免了拷贝到用户空间再拷回来的开销。这对于高吞吐量的网络服务器（如 web 服务器传输大文件）性能提升巨大。
sendfile() 用于文件到文件拷贝的劣势
- 目标必须是 Socket？不行： sendfile() 的核心特性是源是文件（或类似文件的设备），目标是 socket。它不能直接将数据从一个文件描述符发送到另一个文件描述符（因为目标不是 socket）。
- 强制引入 Socket 作为中间媒介： 为了强行在文件间使用 sendfile()，你需要：
  1. 创建一对相互连接的套接字对（socketpair(AF_UNIX, SOCK_STREAM, 0)）。
  2. 在一个线程/进程中，用 sendfile(dest_socket_fd, source_file_fd, ...) 将文件数据发送到这对套接字的一端。
  3. 在另一个线程/进程中，用 recv(source_socket_fd, buffer, ...) 和 write(dest_file_fd, buffer, ...) 从套接字的另一端读取数据并写入目标文件。
  4. 或者， 如果你使用 Linux 特有的 splice 系统调用组合，理论上可以用管道连接 sendfile，但这更加复杂。
- 引入额外开销：
  - 上下文切换： 需要至少两个线程/进程协作，引入了上下文切换开销。
  - 数据拷贝： 接收方线程从 socket 接收数据到用户空间缓冲区 (recv()) 再写入目标文件 (write()) 的过程，完全引入了 sendfile() 本来要避免的那次用户空间拷贝（socket buffer -> user buffer -> page cache for dest file）！虽然源端避免了源文件的用户空间拷贝，但目标端又加回来了，还可能额外引入了套接字缓冲区的拷贝。
  - Socket 操作开销： 创建和管理套接字对本身就有开销。
  - 内存占用： 需要缓冲区供接收方读取 socket 数据，增加了内存使用。
- 复杂性增加： 实现比简单的 read/write 或直接 cp 复杂得多。
高效的文件拷贝方法
- 直接使用 read/write： 现代操作系统（内核）和文件系统对于文件拷贝已经做了大量的优化（如 Page Cache 的使用、预读、回写策略、异步 I/O）。标准库的拷贝函数（如 C 语言的 fread/fwrite）或 cp 命令通常会自动使用足够大的缓冲区（如 128KB）来减少系统调用次数，效率已经很高。
- copy_file_range (Linux)： 这是 Linux 内核 4.5 引入的、专门用于文件到文件拷贝的系统调用！它的目标就是高效地在两个文件描述符之间进行拷贝，甚至可以在支持 CoW 的文件系统（如 btrfs, XFS）上实现近乎零开销的“拷贝”（引用链接）。如果追求极致性能且目标平台是较新 Linux，首选 copy_file_range。
- cp --reflink (支持 CoW 的文件系统)： 如 btrfs, ZFS, XFS, APFS (macOS)。这个选项不是做物理拷贝，而是创建一个写时复制的克隆（引用链接），速度极快，空间开销几乎为零（直到文件被修改）。
- 内存映射 (mmap)： 将源文件和目标文件都映射到内存地址空间，然后直接在内存地址间复制数据。可以避免显式的 read/write 系统调用，在某些场景下可能更快，但需要处理页错误和映射管理，编程复杂且不一定比优化的 read/write 快。
- 专用工具 (如 rsync, dd, fio)： 这些工具通常集成了多种优化策略（如调整块大小，使用 O_DIRECT 绕过缓存，多线程/异步 IO），可以根据具体需求选择参数获得最佳性能。

总结：

sendfile() 是为了优化文件到网络（socket）的传输，不是为了文件到文件传输。
强行用它做文件拷贝需要引入套接字或管道作为中介，这带来了额外的上下文切换、数据拷贝（在目标端）、套接字开销和编程复杂性，几乎总是比直接 read/write 或标准 cp 慢。
对于文件拷贝，应该使用：
- 标准的 cp, read/write（合理缓冲区大小）。
- Linux 特定的 copy_file_range (最佳选择，如果可用)。
- 文件系统的 CoW (写时复制) 功能 (cp --reflink)。
- 考虑 mmap 或 dd/rsync/fio 等工具（根据具体场景调整参数）。

因此，在文件拷贝的场景下，使用 sendfile() 不仅不会获得性能提升，反而会显著降低性能和增加复杂性，应该避免这样做。

发表在 linux文章 | 留下评论

1. 函数介绍

2. 函数原型

3. 功能

4. 参数

5. 返回值

6. 相似函数，或关联函数

7. 示例代码

示例 1：使用 execve 执行 /bin/ls

示例 2：使用 execve 执行自定义程序并传递自定义环境变量

示例 3：fork + execve 经典范式

重要提示与注意事项:

目录

宏定义与预处理技巧

1. 条件编译与平台检测

2. 强大的宏技巧

3. 现代C语言特性

内存管理高级技巧

1. 内存池设计

2. 智能指针模拟

3. 内存对齐

函数指针与回调机制

1. 面向对象风格编程

2. 状态机实现

3. 插件系统设计

数据结构设计

1. 链表实现

2. 哈希表实现

3. 环形缓冲区

并发与多线程

1. 线程安全的数据结构

2. 读写锁实现

3. 无锁编程

错误处理与异常机制

1. 错误码系统

2. 异常模拟机制

3. 资源管理RAII

性能优化技巧

1. 缓存友好的数据结构

2. 分支预测优化

3. 内联汇编优化

4. SIMD优化

调试与测试技巧

1. 调试宏

2. 单元测试框架

3. 内存泄漏检测

跨平台编程

1. 平台抽象层

2. 文件路径处理

3. 字节序处理

安全编程实践

1. 缓冲区溢出防护

2. 输入验证

3. 安全随机数

附录：最佳实践总结

编码规范

性能优化原则

安全编码原则

PACKET_HOST等相关宏定义介绍

1. 适用场景：

2. 来源和作用：

3. 与其他包类型的区别：

creat – 创建文件

函数介绍

函数原型

功能

参数

返回值

特殊限制

相似函数

示例代码

sysfs 和 sysinfo 函数详解

1. 函数介绍

sysfs

sysinfo

2. 函数原型

sysfs

sysinfo

3. 功能

sysfs

sysinfo

示例 1：使用 `execve` 执行 `/bin/ls`

示例 2：使用 `execve` 执行自定义程序并传递自定义环境变量

示例 3：`fork` + `execve` 经典范式

1. 函数介绍 (针对 `syslog(3)` 用户空间函数)

`openlog(const char *ident, int option, int facility)`

`syslog(int priority, const char *format, ...)`

`closelog(void)`

`setlogmask(int maskpri)`