推荐用软件Replace Pioneer完成,支持正则表达式和文本替换,提取,很灵活容易。以下举例说明怎样把<a href 和 </a>之间的内容提取出来,其他的全部删除。1. ctrl-o打开txt文件2. ctrl-h打开Replace窗口(1)在Search for pattern输入:"<a href=.*?</a>"(不带双引号) <span>[a-zA-Z]+</span> 过滤乱码的(2)在Replace with pattern输入: $match\n(3)
去掉Print Unmatched Unit 前面的勾
3. 点击Replace,完成!注:去掉Print Unmatched Unit选项即实现了文本提取。
转载于:https://www.cnblogs.com/alex-13/p/4831530.html
相关资源:JAVA上百实例源码以及开源项目