找回密码
 立即注册
搜索
查看: 4|回复: 0

HTML正文提取算法 99.99%以上的新闻类文章

[复制链接]

130

主题

0

回帖

420

积分

管理员

积分
420
发表于 4 小时前 | 显示全部楼层 |阅读模式
火车头数据信息采集器模块 智能文章采集工具助手 无需编写采集规则【99%以上的网页通用】
【HTML正文提取算法】提取99.99%以上的新闻类文章,包括博客,论坛等,无需编写采集规则
实测99%以上的网页,只要文章内容大于30个汉字(你可以自己设置,30个是最适合的) 并且出现句号,就可以提取出现,你可以填上一个框架内出现XX内容就为正文,当然这是不支持分页的.
理论上讲不用设置任何项目,只需提供源码即可!比火车头还方便,但速度可能慢了一丁点
火车头数据信息采集器模块 智能文章采集工具助手 无需编写采集规则【99%以上的网页通用】
游客,如果您要查看本帖隐藏内容请回复


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|毕业设计论坛

GMT+8, 2025-11-25 16:20 , Processed in 0.081392 second(s), 23 queries .

快速回复 返回顶部 返回列表