Web数据采集相关笔记

# Web数据采集相关笔记

记录在Web爬虫方面的解决方案

数据采集基本流程/步骤
- （1）确定采集源和采集目标；（一、分析用户的信息检索请求）
- （2）分析采集源；（二、了解检索工具/系统的基本情况）
- （3）制定采集方案；（三、制定检索策略）
- （4）执行采集方案；（四、拟定并执行具体检索步骤）
- （5）整理采集结果；（五、获取并整理检索结果）
- （6）评价采集方案；（六、分析评价检索操作与检索结果）

# 常见Java相关的Web采集工具

# 其他记录

1、hummer和monitor4h3相比，存在的缺陷问题？
（1）hummer的引擎信息展示太弱，缺少实时监视；
（2）采集引擎本身应该有个界面，针对自身的各项指标采集情况进行管理展示；
（3）hummer应该添加种子管理，是任务和种子分开，因为好多种子使用同一任务可进行执行。针对每个任务要有实时监视。
（4）hummer缺少插件管理，针对特定网站配置插件。
（5）hummer缺少采集历史，无法看到采集统计信息。

2、一个综合的Web采集管理平台应该具备哪些方面功能？
（1）运行报表：统计当前系统的各项指标数据，例如节点数、任务数、种子数、调度次数及趋势等；
（2）节点管理：展示当前系统的节点监视信息；
（3）任务管理：采集任务的管理情况；（4）种子管理：管理目前系统爬取的种子；（5）采集历史：当前系统的种子数据采集记录；（6）调度日志：（7）配置管理：（8）权限管理：（10）外部接口：

# Web采集平台对象基础概念

# 采集种子

什么是Web采集的种子，符合怎样的规则，才能当做种子？
解答：种子是一类可以直接提取到目标数据的网页地址，换句话说，就是打开这个网页地址，接下来就可以提取数据。在入到种子库之前，需要经过人工分析处理后，才能作为最终的采集种子。所以，这之前要进行种子分析工作。

（1）需求初步提出阶段，定义好采集目标、采集范围。这个阶段只是明确要做的方向，初步定义清楚了我们的采集数据目标概念，采集范围概念。例如“采集微信上文章”，这句话就是简单的一个“需求前期”阶段，这种需求需要再分析处理，转换为更进一步的目标。出来的是概念性需求文档（需求文档——客户整理得出，这个客户有时可能也是我们自己）。
（2）需求规范阶段，概念性需求经过分析后，可以落地的规范性需求，这种需求更直接具体，以“采集微信上文章”概念性需求为例，转换为规范性需求后，就变成了“采集A、B、C……这些微信账户上发表的文章，文章信息包括标题、发布时间、作者、内容、点赞数等”这种规范性需求，出来的就是规范性需求文档（需求规格说明书——产品经理或直接与客户接触的负责人整理得出）。需要再次说明的是，不同的采集范围，采集目标形式会不一样。所以采集目标一定要分总目标，分目标。总目标是由各个分目标共同构成的。各个分目标是由各个不同的采集范围产生出来的。虽然各个分目标可能会有差异，但总目标是一致的。当采集的数据源比较多时，先用Excel对每个渠道中的数据信息进行详细统计。后期再逐步转换。（3）