Edgar页面长度(页面长度和页面大小)
网站反馈:
网站的主要内容是由js生成的,没有针对用户访问进行优化;然而,该网站是为爬虫爬行优化的,图片也直接转换成base64然而,优化后发现的内容并没有被百度收录。
页面的质量非常好,而且是专门为爬行动物优化的。为什么没有包含内容?
工程师分析:
1.网站优化了抓取,图片的二进制内容直接放入html,导致页面长度过长,网站页面长度达到164k
2.网站优化后,主要内容放在最后,但图片放在前面;
3.在爬虫抓取内容之后,页面内容太长而不能被截断,并且主要内容不能在被抓取的部分中被识别,这最终导致页面被认为是空的和短的并且没有被包括。
工程师建议:
1.不建议网站使用js来生成主要内容。如果js呈现错误,页面内容可能会被错误地读取,并且无法对页面进行爬网
2.如果网站是为爬行而优化的,建议页面长度在128k以内,不要太长
3.优化爬虫抓取,请将主题内容放在前面,避免抓取截断导致内容抓取不完整