# 清凉清晨

  心情不是很好,论文开题写作进展很慢,让人不开心,对于论文的主题,写着写着感觉主题又不明确了,我应该坚持住,希望 让你坚持,坚持让你胜利,对准一个方向,努力冲锋。还是需要好好看看论文的开题,读读开题的内容。大部分都是做一个系统或者针对算法 或者一种模型进行研究,并结合实际情况给出对这种理论算法的验证。而且大都是从一个小处着眼,进行详细的写作。我还是要静下心来,进行 深入的研究分析。把问题定义清楚。
  对于公司领导,我也不太满意,当前这种环境,感觉未来发展不太好。或许别人是正确的想法,如果这么说,那当初dx、idc 难道不是正确的想法吗?如果是,那这个领导肯定是有问题。唉……不要想那么多了,管理这种事,自己还是少操心,主要把论文写好,通过接下 来的答辩就可以了,这个不是简单的事情,对于任何人来说,都要把这点搞清楚,把研究的整个过程弄清楚。具体我要研究什么,有什么价值。 是否值得深入研究,说清楚,说明白,说透彻。不要一味地想着蒙混过关,要有学者风范,给出强有力的论证支持,相信自己,我能行,能做好。
  以昨晚阅读那篇论文为例,它围绕着主题进行了一系列的论证,论文结构比较简单。但是逻辑比较清晰,包括对于爬虫的介绍, 对于系统识别验证方法的接收,都描述的比较清楚。并且给出工程化的系统设计与实现。相比之前的恶意域名的论文,也是针对论文的主题进行 多层次论证,具体包括论文域名的发现方法、域名的挖掘方法、网页的分析方法。最后给出域名的判定实验。针对这两篇论文,我应该好好研究 一下,就以他们为基础,研究论文的具体实现。把我自己的论文结构再梳理梳理,别人已经写过的,也可以借鉴一下,根据自己的想法进行改进。 但那个地方,不是我关注的主要目标,我的主要目标是发现特定网站,围绕着这个目标而提出哪些理论,针对这个理论又是如何实践的,从而具体 实现目标。其中的某些环节,可能别人已经研究过,对于这种,要具体分析下别人研究的情况,存在着哪些问题,譬如别人列举的几种方法,在 理论描述上,不完整,不详细,首先,随着网络的发展,域名有了很大的变化,例如通用域名、新域名概念的兴起。其次,对于域名的具体研究, 没有针对性,只是涵盖域名本身,对于域名绑定的网站服务缺少研究。再者,对于域名的分析技术,采用传统的Hadoop大数据文件处理方式,当前 大数据分析组件也发生了很大的变化,例如Kudu、Druid、Clikehouse等,对于数据分析实时性能更友好,其中的Clickhouse大数据处理组件 对于亿级规模数据能达到亚秒分析检索,能够快速提高当前海量域名的分析能力。本文需要在域名基础上,建立有效的网站,针对这些网站,挖掘 出高价值的特定主题网站,从而达到对区域网络更好的管理。
  在算法上,采用相似度计算,但是网页结构本身就发生变化,效果不是特别好,本论文针对这个问题,采用以目标为导向原则, 在多层次网页特征过滤后,直接采集网页最终渲染内容截图,然后采用基于神经网络的图像识别模型进行识别,结果更加精准。其中特定网页 模型识别精准度能达到100%,这对于一些重要的特定网站的识别场景非常有应用价值。   在主题上,针对论文中的每个主题,要进行多维度的辩论,为论文整体目标奠定好较为扎实的基础。
  论文在介绍上,缺少网站有效性检测程序(对爬虫进行介绍)、网页快照截图程序(对截图原理进行介绍)。

上次更新: 2021-10-20 07:54:46