O que um hash criptográfico prova e o que ele não prova

Uma função hash criptográfica recebe dados de tamanho prático arbitrário e produz um digest de tamanho fixo. O mesmo input gera a mesma saída, enquanto uma mudança pequena altera bastante a impressão digital. Essa propriedade permite comparar arquivos, commits, releases e mensagens. O hash, porém, prova menos do que muitos sistemas sugerem: ele relaciona bytes a um valor esperado, mas não diz quem criou o conteúdo nem se ele é seguro.

Hash não é criptografia reversível

Criptografia foi desenhada para ser revertida com uma chave. Hash não possui operação de decrypt. Como comprime um espaço enorme em uma saída finita, colisões existem matematicamente. Um algoritmo seguro torna impraticável encontrar uma colisão útil ou um input para um digest escolhido.

One-way não protege automaticamente segredos previsíveis. Um atacante pode hashear guesses. Senhas exigem algoritmos lentos, salts e parâmetros próprios.

Integridade depende de um valor esperado confiável

Calcular SHA-256 de um download ajuda somente se o digest esperado veio por um canal confiável. Se o atacante controla arquivo e página de checksum, ele troca ambos.

Assinatura digital resolve essa ligação ao assinar o digest com private key. O verificador usa uma public key confiável para conectar integridade à identidade.

Collision resistance possui contexto histórico

MD5 e SHA-1 não servem para integridade adversarial porque colisões práticas foram demonstradas. Eles podem permanecer em formatos legados ou checks não hostis, mas essa função deve ser limitada.

Novos protocolos devem usar algoritmos modernos, como SHA-256 ou opções estabelecidas mais fortes, conforme o threat model.

O hash compara bytes exatos

Arquivos visualmente iguais podem diferir em line endings, metadata, encoding ou normalização Unicode. JSON reformatado produz outro digest, mesmo mantendo o significado.

Protocolos assinados precisam de representação canônica ou dos bytes originais. Ao investigar mismatch, compare tamanho, encoding, compressão e serialização.

Representação textual faz parte do contrato

Digest pode ser hexadecimal ou Base64. Algoritmo, caixa, padding e comprimento precisam ser definidos. Um campo chamado apenas hash é insuficiente.

Truncar reduz collision resistance. Pode ser aceitável para cache não crítico, mas não deveria ser improvisado em segurança.

Arquivos grandes podem ser processados em streaming

A função atualiza estado por chunks e não precisa carregar todo o arquivo. Isso permite validar backups e objetos de muitos gigabytes.

A aplicação ainda deve detectar erro de leitura e comprimento incompleto. Um digest de stream cortado é válido para aqueles bytes.

Content addressing usa hash como identidade

Storage por conteúdo usa o digest como endereço. Merkle trees resumem muitos blocos em uma raiz. Version control e sistemas distribuídos aproveitam determinismo e resistência a colisão.

Conteúdo com hash correto ainda pode ser malicioso. Parsers, size limits e sandbox continuam necessários.

Checksums e hashes não possuem o mesmo threat model

CRC pode detectar bit flip com custo baixo, mas foi desenhado para erros acidentais. Em um ambiente adversarial, o atacante recalcula o checksum. Hash criptográfico custa mais e busca resistir a inputs escolhidos.

Usar SHA-256 em toda situação também não é obrigatório. O mecanismo deve corresponder à ameaça e ao volume. A documentação precisa dizer qual pergunta o digest responde.

Comparação precisa ser feita no nível correto

Dois encodings textuais podem representar os mesmos bytes de digest. Antes de comparar, o protocolo deve definir forma canônica. Em contextos autenticados, use funções de comparação adequadas e não aceite algoritmos escolhidos livremente pela entrada.

Erros de caixa, padding e prefixos de algoritmo são problemas de contrato, não do hash matemático.

Algoritmos precisam de metadata e migração

Salvar apenas o digest torna uma migração futura ambígua. Registre algoritmo e, quando necessário, parâmetros. Durante transição, o sistema pode publicar dois hashes ou recalcular gradualmente.

Artefatos antigos precisam continuar verificáveis. A troca não deve apagar a capacidade de auditar o passado.

Mismatches precisam parar ações perigosas

Uma atualização com assinatura ou hash incorreto não deve continuar por conveniência. Fail-open remove a proteção justamente no momento de falha. O sistema deve bloquear e emitir diagnóstico.

Logs podem incluir algoritmo, tamanho, objeto e request ID sem copiar conteúdo sensível. Métricas de mismatch ajudam a detectar storage corrompido ou pipeline alterado.

Manifestos confiáveis tornam a verificação reproduzível

Em uma distribuição com muitos arquivos, um manifesto pode relacionar caminho, tamanho, algoritmo e digest de cada artefato. O manifesto precisa chegar por um canal autenticado, idealmente com assinatura. Assim, mirrors podem servir os bytes sem receber confiança para alterar a lista esperada.

Builds reproduzíveis reforçam essa garantia. Equipes diferentes podem gerar o mesmo pacote a partir do mesmo código e comparar os hashes. Quando o resultado diverge, a investigação deve considerar dependências, timestamps, ordem dos arquivos e ambiente de compilação antes de concluir que houve ataque.

Agilidade de algoritmo deve existir antes da emergência

Formatos duradouros não deveriam assumir que um único algoritmo será aceitável para sempre. Um identificador explícito e uma política de algoritmos permitidos possibilitam migração controlada sem aceitar escolhas inseguras enviadas pelo atacante. A aplicação decide a policy; o documento apenas informa como foi produzido.

O contexto define a prova

Um hash prova que os bytes correspondem a uma impressão esperada. Não prova que a impressão veio da fonte certa, que o arquivo é inofensivo ou que o autor é confiável.

Quando algoritmo, bytes e canal de confiança são explícitos, a pequena string se torna uma evidência forte. Sem esse contexto, é apenas um identificador reproduzível.