Hadoop é uma plataforma de código aberto para armazenamento e processamento distribuídos de grandes conjuntos de dados. Ele inclui o HDFS para armazenamento de dados em vários nós e o MapReduce para processamento paralelo de dados. O HDFS armazena dados em blocos replicados entre nós e o MapReduce usa mappers e reducers para processar pares chave-valor de forma distribuída.