`
simohayha
  • 浏览: 1384409 次
  • 性别: Icon_minigender_1
  • 来自: 火星
社区版块
存档分类
最新评论

GUN C正则表达式

阅读更多
最近项目中要处理文本,因此就用了gun的正则表达式,它是posix风格的..我们一般使用的都是perl风格的,所以一开始使用可能会有一些不习惯.详细的区别可以在wiki上看到:

http://en.wikipedia.org/wiki/Regular_expression

头文件是regex.h可以在里面看到他所提供的接口.这里主要是3个函数和一个结构体:

引用
int regcomp (regex_t *compiled, const char *pattern, int cflags)
int regexec (regex_t *compiled, char *string, size_t nmatch, regmatch_t matchptr [], int eflags)
void regfree (regex_t *compiled)
typedef struct {
  regoff_t rm_so;
  regoff_t rm_eo;
} regmatch_t;


regcomp会将参数pattern编译为compiled,也就是讲字符串编译为正则表达式.
而参数cflags可以是下面1种或者几种的组合:

REG_EXTENDED
使用 扩展的 posix  Regular Expressions.
REG_ICASE
忽略大小写
REG_NOSUB
不存储匹配结果,只返回是否匹配成功.
REG_NEWLINE
可以匹配换行.

regexec执行匹配.compiled为刚才编译好的正则表达式,string为将要匹配的字符串,nmatch为后面的结构体数组的长度(regmatch_t).matchptr为regmatch_t的一个数组(也就是存储着像perl里面的$0,$1这些的位置,也就是).而eflag参数则可以是下面中的1个或多个.

REG_NOTBOL
会讲^作为一个一般字符来匹配,而不是一行的开始
REG_NOTEOL
会讲$作为一个一般字符来匹配,而不是一行的结束
regfree每次用完之后需要释放这个正则表达式.compiled为需要释放的正则表达式.

regmatch_t 中的rm_so为匹配字符的开始位置,rm_eo为结束位置.

说了这么多,其实使用很简单的:

引用
POSIX Regexp Compilation: Using regcomp to prepare to match.
Flags for POSIX Regexps: Syntax variations for regcomp.
Matching POSIX Regexps: Using regexec to match the compiled pattern that you get from regcomp.
Regexp Subexpressions: Finding which parts of the string were matched.
Subexpression Complications: Find points of which parts were matched.
Regexp Cleanup: Freeing storage; reporting errors.


然后看个例子吧:

#include <stdio.h>
#include <regex.h>
#include <string>
int main(int argc, char** argv)
{
        char* pattern="abc([0-9]+)";
        int z=0;
        char *s_tmp="Abc1234";
        regex_t reg;
        regmatch_t pm[3];
        z = regcomp( & reg, pattern, REG_EXTENDED|REG_ICASE);
        z = regexec( & reg, s_tmp, 3, pm, 0);
    if (z != 0) {
//也就是不匹配
                return 2;
        }
       std::string s=s_tmp;
        std::string result0=s.substr(pm[0].rm_so, pm[0].rm_eo-pm[0].rm_so);
        std::string result1=s.substr(pm[1].rm_so, pm[1].rm_eo-pm[1].rm_so);
    printf("[%s]\n",  result0.c_str());
        printf("[%s]\n", result1.c_str());
        regfree( & reg);
        return 0;
}


很简单一个例子, 将会打印出Abc1234gh和1234.这里因为有括号,因此pm[0]存储着第0组的位置,pm[1]存储第1组的位置.

也谈谈自己的体会吧,那就是真不好用,不管是提供的接口还是posix风格的正则.而且据说是效率比较低下.因此如果有机会下次准备试试boost得正则或者pcre了..
3
0
分享到:
评论

相关推荐

    C正则表达式库

    来自GUN C的官方正则表达式库,提取并打包 包含regex.c和regex.h。

    gun c语言 编码标准

    很不错,对想写出规范,专业的C代码很有帮助

    GUN regex库和源码

    gunregex0_13.tar.gz是源码,看网上介绍说vs里面使用会报错,可能是linux下...还有一个regex-2.7-bin.zip这个是库文件,本人在vc上测试可以使用,就是使用这个库时,正则表达式有些需要注意的地方,具体看POSIX正则规范

    Awk学习笔记和指南

    它支持用户自定义函数和 动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk的处理文本和数据的方式是这 样的,它逐行扫描文件,从第一行到最后一行,...

    AWK教程文档

    它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk的处理文本和数据的方式是这样的,它逐行扫描文件,从第一行到最后一行,寻找...

    gun c 与 ascii 的重要区别

    gun c 与 ascii 的重要区别 初学linux必看

    awk学习笔记

    它支持用户自定义函数和 动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk的处理文本和数据的方式是这 样的,它逐行扫描文件,从第一行到最后一行,...

    Awk学习笔记

    自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk的处理文 本和数据的方式是这样的,它逐行扫描文件,从第一行到最后一行,寻找匹配的特定...

    GUN C库函数手册

    GUN C库函数手册,不错的手册支持API查找功能

    sed and awk 101 hacks.pdf (中文版带书签)

    它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。 它在命令行中使用,但更多是作为脚本来使用。 awk的处理文本和数据的方式是这样的,它逐行扫描文件,从第一行到最后一行,...

    GUN C库手册

    C语言函数库手册 本文档中描述的GNU C库定义了所有的库函数 由ISO C标准规定,以及具体的POSIX和附加功能 UNIX操作系统的其他衍生工具和特定于GNU系统的扩展。 本手册的目的是告诉您如何使用GNU库的工具。 我们已经...

    GUNC编译工具链.pdf

    GUNC编译工具链 主要是gcc优化选项,以及一些调试的简介 也可以去iask下载

    GUN官网的C资源手册,libc.pdf

    http://www.gnu.org/software/libc/manual/html_node/index.html 这是C语言的老家,Clib库文件的说明,使用,清晰明了。 大家喜欢,留个言。我继续分享

    GUN C函数手册

    GUN C函数手册 英文 分享 --JZ

    GUN C (The GNU C Library Reference Manual)

    GNU C 库参照手册 英文版的,或许对某些学者会有帮助 O(∩_∩)O

    StatusSpec:Team Fortress 2客户端插件,可增强游戏观赏性

    状态规格 Team Fortress 2客户端插件,可增强游戏观赏性 变更日志 ...增加了通过正则表达式过滤控制台的功能 定制材料添加了重新加载设置命令 定制模型添加了重新加载设置命令 自定义纹理添加了重新加载设

    gun c library

    the gun c library reference manual 包含许多有用的函数库 方便查询 pdf文件

    DMA.zip_Tricore_gun_gun c tricore_tricore dma

    TriCore DMA调试源代码,GUN下的

    GUNC lib手册

    This fle documents the GNU C Library. This is The GNU C Library Reference Manual, for version 2.28. Copyright c 1993–2018 Free Software Foundation, Inc. Permission is granted to copy, distribute and/...

    编译器使用包含gun和jdb等资料

    编译器使用包含gun和jdb等资料,欢迎学习交流。

Global site tag (gtag.js) - Google Analytics