密码学哈希能证明什么，又不能证明什么

哈希函数在软件里无处不在：校验文件、存储密码、生成数字签名、构建各种数据结构。但围绕它的误解也很多。有人以为哈希是一种加密，有人以为它能保证数据安全，有人则把它当成万能的防篡改魔法。要正确地使用哈希，关键是分清它到底能证明什么、又故意不证明什么。理解这条边界，你就能在合适的地方用对它，而不会在错误的地方依赖它。

把任意数据压成定长指纹

密码学哈希的基本作用，是把任意长度的输入，映射成一段固定长度的输出。无论你喂给它一个字节还是一整部电影，它都吐出同样长度的一串值，这串值常被称为"摘要"或"指纹"。它就像数据的一个浓缩签名。

这个指纹有个关键性质：输入只要有任何细微改动，输出就会发生面目全非的变化。改动一个字节，整个摘要就完全不同。正是这一点，让哈希成为检测数据是否被改动的有力工具。

单向：算得出，反不回去

密码学哈希的核心特性之一是单向性：从输入算出摘要很容易，但从摘要反推出原始输入却在实践中不可行。哈希不是加密——加密设计成可以用密钥解开，而哈希压根没有"解开"这回事。它丢弃了还原所需的信息。

这正是哈希能用来存储密码的原因：系统保存的是密码的摘要而非密码本身，即便摘要泄露，攻击者也无法直接从中还原出原始密码。把哈希误当成可逆的加密，是一个根本性的概念错误。

抗碰撞：很难造出两个相同指纹

另一个关键性质是抗碰撞性：要找到两个不同的输入、却产生相同的摘要，应当极其困难。如果攻击者能轻易构造出碰撞，他就可能用一份恶意数据冒充一份合法数据，因为两者的指纹一样。

正是抗碰撞性，让哈希可以用来证明完整性。当你对比一份文件的摘要和它声称的摘要，两者一致就能高度确信文件没被改动——因为伪造出一份摘要相同的不同文件，被认为是不可行的。这也是为什么过时的、已被找到碰撞的哈希算法必须淘汰。

它能证明：数据没被改动

哈希最直接的用途，是验证数据完整性。下载一个文件后，对它重新计算哈希，再和发布方提供的摘要比对：相同，说明传输过程中没有损坏或被篡改；不同，说明数据已经变了。这是一种简单而可靠的完整性检查。

需要强调的是，这只能证明"数据和那份摘要所对应的数据一致"。它本身不证明这份数据来自谁——如果攻击者能同时替换文件和它的摘要，比对依然会通过。完整性和来源是两回事。

它不能证明：数据来自谁

这是最容易被忽视的边界。一个摘要本身不携带任何关于"谁生成了它"的信息。任何人都能对任意数据计算哈希，所以单凭一个摘要无法证明数据的来源或真实性。如果传递摘要的渠道本身可被篡改，那么完整性校验就形同虚设。

要证明来源和真实性，需要的是数字签名或消息认证码——它们把哈希和密钥结合起来，让验证方能确认数据确实出自某个特定的、持有密钥的一方。哈希是这些机制的基石，但单独的哈希提供不了来源证明。

它也不能保护弱密码

另一个常见误区，是以为给密码做了哈希就万事大吉。普通的密码学哈希算得飞快，这本是优点，但用在密码上却成了弱点：攻击者可以极快地对海量候选密码逐一计算哈希，去比对泄露的摘要，从而破解弱密码。

所以密码需要的不是普通哈希，而是专门设计得很慢、并加了盐的密码哈希函数。把"做了哈希"等同于"密码安全"，是一个危险的简化。哈希能保护密码，但前提是用对了为密码而生的那种哈希。

在边界之内使用它

把这些理清后，哈希的用法就清晰了。它擅长生成数据指纹、检测改动、作为签名和密码存储的底层构件；它不擅长隐藏数据（那是加密的事）、证明来源（那需要签名）、或单凭自身保护弱密码（那需要专用的慢哈希）。

每当你打算用哈希解决一个问题时，先问一句：我真正需要证明的是完整性、来源、还是机密性？哈希只回答完整性，且只在抗碰撞成立、摘要传递渠道可信的前提下。守住这条边界，哈希就是一件可靠而强大的工具。