顺时SEO
顺时网络 SEO服务公司,公司使命助力中小企业在各大搜索引擎实现SEO营销!
当前位置: 首页 > SEO技术 >

关键词排名优化-信息指纹特征及其原理

时间:2017-06-03 11:18来源:网络整理 作者:顺时SEO 点击:
今天咱们讲讲关键词排名优化-信息指纹特征及其原理,任何一段信息文字,都可以对应一个不太长的随机数,作为差

 

  今天咱们讲讲关键词排名优化-信息指纹特征及其原理,任何一段信息文字,都可以对应一个不太长的随机数,作为差别它和其它信息的指纹(Fingerprint)。只需算法设计的好,任何两段信息的指纹都很难重复,就仿佛人类的指纹一样。信息指纹在加密、信息压缩和处理中有着遍及的应用。

  我们在图论和收集爬虫一文中提到,为了防止重复下载统一个网页,我们需求在哈希表中记载曾经访问过的网址(URL)。然则在哈希表中以字符串的方法直接存储网址,既费内存空间,又糜费查找时间。现在的网址通俗都较长,比如,假设在 Google 或许百度在查找数学之美,对应的网址长度在一百个字符以上。下面是百度的链接

  假定网址的平均长度为一百个字符,那么存贮 200 亿个网址自身至少需求 2 TB,即两千 GB 的容量,思考到哈希表的存储效力通俗只要 50%,实践需求的内存在 4 TB以上。即使把这些网址放到了计算机的内存中,因为网址长度不固定,以字符串的方法查找的效力会很低。因此,我们假设可以找到一个函数,将这 200 亿个网址随机地映照到128 二进位即 16 个字节的整数空间,比如将下面阿谁很长的字符串对应成一个以下的随机数:

  893249432984398432980545454543

  如许每个网址只需求占用 16 个字节而不是本来的一百个。这就可以把存储网址的内存需求量降低到本来的 1/6。这个16 个字节的随机数,就称做该网址的信息指纹(Fingerprint)。可以证实,只需发生随机数的算法足够好,可以保证简直不能够有两个字符串的指纹相反,就仿佛不能够有两团体的指纹相反一样。因为指纹是固定的 128 位整数,因此查找的计算量比字符串比拟小很多。收集爬虫不才载网页时,它将访问过的网页的网址都酿成一个个信息指纹,存到哈希表中,每当碰到一个新网址时,计算机就计算出它的指纹,然后比拟该指纹可否曾经在哈希表中,来决定可否下载这个网页。这类整数的查找比本来字符串查找,可以快几倍到几十倍。

  发生信息指纹的关键算法是伪随机数发生器算法(prng)。最早的 prng 算法是由计算机之父冯诺伊曼提出来的。他的方法十分复杂,就是将一个数的平方掐头去尾,取中间的几位数。比如一个四位的二进制数 1001(相当于十进制的9),其平方为 01010001 (十进制的 81)掐头去尾剩下中间的四位 0100。固然这类方法发生的数字其实不很随机,也就是说两个分歧信息很有能够有统一指纹。现在经常使用的 MersenneTwister 算法要好很多。

  信息指纹的用途远不止网址的消重,信息指纹的的孪生兄弟是暗码。信息指纹的一个特点是其不成逆性, 也就是说,没法依据信息指纹推出原有信息,这类性质, 正是收集加密传输所需求的。比如说,一个网站可以依据用户的Cookie 识别分歧用户,这个 cookie 就是信息指纹。然则网站没法依据信息指纹了解用户的身份,如许便可以保护用户的隐私。在互联网上,加密的牢靠性,取决于可否很难报答地找到具有统一指纹的信息, 比如一个黑客可否能随便发生用户的 cookie。从加密的角度讲 MersenneTwister,算法并欠好,,因为它发生的随机数有相干性。

  互联网上加密要用基于加密伪随机数发生器(csprng)。经常使用的算法有 MD5 或许 SHA1 等规范,它们可以将不定长的信息酿成定长的 128 二进位或许 160 二进位随机数。值得一提的事,SHA1 之前被认为是没有破绽的,现在曾经被中国的王小云传授证实存在破绽。然则大年夜家不用惊恐, 因为这和黑客能真正攻破你的注册信息是还两回事。

文章标题:关键词排名优化-信息指纹特征及其原理

本文地址:http://seo.baidutop123.com/gjcyh/1827.html

扫一扫关注顺时网络公众号

扫一扫关注顺时网络公众号

责任编辑:顺时SEO

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表

客户QQ服务热线:

QQ:1251192082

QQ:2922517368

QQ:40467028

在线客服