通过Web预测网页出版日期的学习,国管公积金提

作者:政策资讯

发布部门: 江苏省 发布文号: . 经省革委会同意,我市自今年七月份起分别从石油液化气销售收入、轮渡票价收入中提取百分之十的附加。希即通知所属有关单位,按月提取,及时上交市财政局。.

图片 1

背景:

图片 2

图片发布于简书

近年来,时间维在搜索引擎中的重要性日益增加。在多种索引任务中,页面发布日期是重要组成部分。最新发布的页面中的内容和其所包含的链接的信息更具有时效性,因此在网页爬取过程中,这些页面更应优先被抓取。在索引排名中,页面发布日期也是应考虑的一个方面。所以,我们需要一个可靠的算法去遍历web结构中的所有网页,并找出或估算出他们的页面发布日期。

原标题:国管公积金提取业务不再提交纸质提取申请书

夜深人静,辗转难眠。许多宅男打开了几个 G 的硬盘,在里面探索,仿佛在寻觅稀世珍宝。良久,点燃了一支烟,口中发出了久久不能平息的叹息声,无果。

 

中央国家机关住房资金管理中心微信号10月23日发布“关于简化住房公积金提取业务申请材料的公告”,公告称,即日起住房公积金提取业务不再提交纸质提取申请书。

下载时的 URL 过长,又没有将 "番号" 提取出来。最终导致无法找到心仪已久 "宝藏"。

研究难点:

据了解,北京公积金此前也发布过系列便民措施,市民提取公积金只需要提交身份证和提取申请表就行,提取申请表里填写上网签合同编号和密码。

方法一:分列

纵观整个网络,并不是所有网页的发布日期都在固定的位置,举例说明:

第一步:工具栏中选择数据中的分列功能,进一步选择固定宽度选项。

有些网页的发布日期在其URL中,如

图片 3

有些时间记录在HTML <title>中

图片发布于简书

 图片 4

第二步:选中要提取数据的单元格,点击菜单栏中的分列功能,选择固定宽度选项。

有些则存在于HTML <body>中,并可能包含多个无关日期

图片 5

 图片 6

图片发布于简书

有些网页则不包含任何有关时间的信息。

第三步:将需要提取的数据选中,更改成自己需要的数据格式,目标为需要导入的单元格的位置。其余的部分点击不导入此列,将数据变成忽略列。

 图片 7

图片 8

这些页面差异无形中增加了获取或估算页面发布日期的难度。

图片发布于简书

 

整体的操作过程GIF图如下所示:

研究目标:设计一种算法在差异化网页中找出网页发布日期

图片 9

 

图片发布于简书

旧的思路:

方法二:函数

1、基于内容的检测方法。从web文本中获取候选日期,并从获选日期中选举出页面发布日期。在这里,所有的三个必要步骤制成:日期提取,候选日期正常化,选择正确的出版日期。但是,这种方法只能应用到在其文本或网址中包含出版日期的页面。对于不包含日期的页面,这种方法无效。

用函数来进行数据的提取,会让你显得更为专业、有逼格,效率更快。

2、基于链接结构的检测方法。对于一个待估测的页面,依据它邻居的发布日期来估测出该页面的发布日期。

这次的数据提取用到了两次函数:TEXTMID,整体的操作过程GIF图如下所示:

3、基于语言模型的检测方法:

图片 10

语言模型也常常应用于确定网页凭证日期,依靠语言的相似度去匹配两个页面的文档,但推测日期的结果一般是粗糙而不可靠的。

图片发布于简书

 

公式:=TEXT(MID(B2,42,8),"G")
公式说明: MID 函数是从指定单元格中,提取指定部分的函数。MID(B2,42,8)的意思是:从B2单元格中,从第 42 个字符开始,提取 8 位字符。使用 TEXT 函数将提取后的数据,转换为带有指定格式的数据,G 为通用格式。

新的思路:结合基于内容的检测方法和基于链接结构的检测方法来设计算法。

 

算法描述:             

阶段1:基于内容的提取锚和种子日期

第一阶段我们的算法从每个页面的URL和HTML body来提取候选日期,并从候选日期中选择最可能的出版日期一些页面比较有可能探测出可靠日期,它们在算法中将被固定为其它网页的锚固日期(anchor dates)。对于一些其他页面,候选日期也可以提取的,但他们不太可靠,这样的日期被称为种子日期(seed dates)。

阶段2: 锚固日期和种子日期的传递

对于文本中没有日期的页面,从相邻页面中选择近似的日期。在实验中,如果一些页面在传递后仍然没有日期,则为它们设置一些常量值。

阶段3:似然优化

种子日期、传播日期和常数日期通过似然优化的方法一起构成初始日期,我们的方法是基于网络演化模型,在3.5节给出描述。锚固日期是在URL或HTML body中提取出的可靠日期,在基于链接结构的过程中不会被更改,种子日期是文本中提取的不可靠日期,传递日期是日期传递算法计算的结果,其它没有日期结果的页面被设置常数日期。       

 

锚固日期和种子日期的提取

对于网页文件的不同位置提取的日期,他们的可靠性不同。按其可靠性设置提取权重(由大到小):

1. URL 

2. 标题 

3. 主要内容之前 

4. 主要内容之后

5. 主要内容 

6. 其他位置

按以上顺序提取,若在高权重位置提取到日期,则不进行在的权重位置的提取。在1、2、3位置提取到的日期可作为锚固日期,在4、5、6位置提取到的日期只能作为种子日期。

本文由威尼斯发布,转载请注明来源

关键词: