RuleFinder 文本匹配工具是一个用于快速编写匹配规则,提取文本的工具。 当前版本号:0.1.12 update: 2020/6/12 本工具包括:类库,规则编辑器,批量提取器。 在做NLP的前期文本处理工作时,需要对文本进行人工的分析,使用一些关键词或者句式等来匹配查找文本;甚至在一些简单的模型与处理中,也需要使用文本匹配的方式来对文本进行匹配处理,当然我们可以写很多正则表达式,但正则表达式太过复杂,普通情况下不会用到,而且正则表达式多了也不方便管理,于是产生了这个小工具。 文本匹配工具,使用简便的匹配规则来对文本进行匹配。工具提供了基于WEB的规则编辑器,可快速编辑规则,验证规则的匹配结果。 案例:按规则提取句子分类 运行以下命令即可启动案例: 然后在浏览器中访问: 匹配规则包含以下元素: 匹配规则与正则相似,规则如下: 中括号[]: 代表其中的内容是可选的,比如: “不[得]”,能匹配 “不”和”不得”; 尖括号<>: 代表其中的内容是必选的,比如: “<经>营”, 能匹配 “经营” 竖线(“|”):代表或的关系,即竖线分隔的内容是可替换的,比如: “<注册|成立>时间” 能匹配 “注册时间” 和 “成立时间” 括号(): 是可以嵌套的;例如: “不[得<少|小>于]” 能匹配: “不”,”不得少于”,“不得小于” “[稳定|正常]运营” 能匹配: “稳定运营”,“正常运营”,“运营” 竖线在其所属的括号内,优先级大于括号中的其他括号,比如 “<注册[登记]|成立>时间” 能匹配: “注册时间”,“注册登记时间”,“成立时间” 竖线可以脱离括号独立存在,比如: “在哪里|哪里有” 可以匹配: “在哪里”和”哪里有” v 0.1.12 v 0.1.10 详细参数可见: 默认启动时监听 默认加载规则文件为: 默认加载数据文件为: 使用浏览器打开以下地址访问规则编辑器: 浏览器界面如下: 在浏览器界面中可以完成: 完成规则编辑后,可以使用规则提取器,对整个目录下的文件批量提取结果。 运行以下命令可运行demo: 运行示例如下: 详细参数运行以下命令查看: 参数如下:
文本匹配工具
源码地址: https://github.com/xmxoxo/RuleFinderRuleLib.py 类库,可自行引用到项目中使用; RuleEditor.py 规则编辑器,基于flask的WEB应用,可在浏览器中编辑规则; RulePicker.py 规则提取器,可加载规则后从批量文件中提取匹配结果;
工具有什么用?
pip install -r requirements.txt python RuleEditor.py -rule_file ./rules/rule3.txt -test_file ./test/test3.txt
https://127.0.0.1:8910
匹配规则
"(?:[^ ,;;。‘’"“”]+?)"
更新日志
使用案例
pip install -r requirements.txt
运行以下命令,使用默认参数启动启动规则编辑器:python RuleEditor.py
python RuleEditor.py -h
0.0.0.0:8910
端口./rules/rule.txt
./test/test.txt
https://127.0.0.1:8910
python RulePicker.py -rule ./rules/rule.txt
13:36:55.38|F:>python RulePicker.py -rule ./rules/rule.txt 正在批量处理,请稍候... 正在匹配文件:./test/test.txt 正在匹配文件:./test/test1.txt 正在匹配文件:./test/test2.txt 保存结果:./output/result_20200611134436.csv 匹配用时: 0.03秒 匹配结果共3个文件: =====文件:test 匹配:5条===== =====文件:test1 匹配:1条===== =====文件:test2 匹配:2条=====
python RulePicker.py -h
12:01:36.57|F:>RulePicker.py -h usage: RulePicker.py [-h] -rule RULE [-data DATA] [-output OUTPUT] RulePicker v_0.1.10 by xmxoxo optional arguments: -h, --help show this help message and exit -rule RULE rule file -data DATA data file path, default: ./test/ -output OUTPUT output path, default: ./output/
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox网页视频下载器 下载地址: ImovieBox网页视频下载器-最新版本下载
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算