# Web数据采集相关笔记

记录在Web爬虫方面的解决方案

  • 数据采集基本流程/步骤
    • (1)确定采集源和采集目标;(一、分析用户的信息检索请求)
    • (2)分析采集源;(二、了解检索工具/系统的基本情况)
    • (3)制定采集方案;(三、制定检索策略)
    • (4)执行采集方案;(四、拟定并执行具体检索步骤)
    • (5)整理采集结果;(五、获取并整理检索结果)
    • (6)评价采集方案;(六、分析评价检索操作与检索结果)

# 常见Java相关的Web采集工具

  1. Gecco (opens new window):2019年
  2. WebCollector (opens new window):11天之前
  3. Spiderman (opens new window)
  4. WebMagic (opens new window)
  5. Heritrix (opens new window)
  6. crawler4j (opens new window)
  7. nutch (opens new window)
  8. spider-tangpoem (opens new window)
  9. wind-bell (opens new window)

# 其他记录

1、hummer和monitor4h3相比,存在的缺陷问题?
(1)hummer的引擎信息展示太弱,缺少实时监视;
(2)采集引擎本身应该有个界面,针对自身的各项指标采集情况进行管理展示;
(3)hummer应该添加种子管理,是任务和种子分开,因为好多种子使用同一任务可进行执行。针对每个任务要有实时监视。
(4)hummer缺少插件管理,针对特定网站配置插件。
(5)hummer缺少采集历史,无法看到采集统计信息。

2、一个综合的Web采集管理平台应该具备哪些方面功能?
(1)运行报表:统计当前系统的各项指标数据,例如节点数、任务数、种子数、调度次数及趋势等;
(2)节点管理:展示当前系统的节点监视信息;
(3)任务管理:采集任务的管理情况; (4)种子管理:管理目前系统爬取的种子; (5)采集历史:当前系统的种子数据采集记录; (6)调度日志: (7)配置管理: (8)权限管理: (10)外部接口:

# Web采集平台对象基础概念

# 采集种子

  1. 什么是Web采集的种子,符合怎样的规则,才能当做种子?
    解答:种子是一类可以直接提取到目标数据的网页地址,换句话说,就是打开这个网页地址,接下来就可以提取数据。在入到种子库之前,需要经过人工分析处理后, 才能作为最终的采集种子。所以,这之前要进行种子分析工作。

(1)需求初步提出阶段,定义好采集目标、采集范围。这个阶段只是明确要做的方向,初步定义清楚了我们的采集数据目标概念,采集范围概念。例如“采集微信上文章”,这句话就是简单的一个“需求前期”阶段, 这种需求需要再分析处理,转换为更进一步的目标。出来的是概念性需求文档(需求文档——客户整理得出,这个客户有时可能也是我们自己)。
(2)需求规范阶段,概念性需求经过分析后,可以落地的规范性需求,这种需求更直接具体,以“采集微信上文章”概念性需求为例,转换为规范性需求后,就变成了“采集A、B、C……这些微信账户上发表的文章, 文章信息包括标题、发布时间、作者、内容、点赞数等”这种规范性需求,出来的就是规范性需求文档(需求规格说明书——产品经理或直接与客户接触的负责人整理得出)。 需要再次说明的是,不同的采集范围,采集目标形式会不一样。所以采集目标一定要分总目标,分目标。总目标是由各个分目标共同构成的。各个分目标是由各个不同的采集 范围产生出来的。虽然各个分目标可能会有差异,但总目标是一致的。当采集的数据源比较多时,先用Excel对每个渠道中的数据信息进行详细统计。后期再逐步转换。 (3)

上次更新: 2020-06-15 19:28:56