散列 32 位整数比对 3 个 16 位整数的散列按位运算慢？

Question

我正在开发对延迟敏感的软件。今天，我决定通过在联合中使用 BitField 结构来缩小我的结构，并将该 BitField 结构读取为一个整数，我将其用作我的哈希函数的唯一键。我期望从我的唯一键上的散列获得比对我的 class 的属性散列的按位运算略微（如果不是很多）更好的性能，但事实证明进行按位运算以获得散列键很多快多了？我一直在试图找出原因，但我无法得出任何结论。

这是我的代码：http://quick-bench.com/OkNuVOxdVtW8g7OWUXjqcvYlNrs

#include <functional>

struct GroupTupleInformation {
  unsigned int src : 12;
  unsigned int dst : 12;
  unsigned int flow_id : 8;
};

union GroupTupleData {
  GroupTupleInformation info;
  uint32_t hash_key;
};

struct GroupTuple {
  constexpr void setSrc(uint16_t s) noexcept { data.info.src = s; }

  constexpr uint16_t getSrc() const noexcept { return data.info.src; }

  constexpr void setDst(uint16_t d) noexcept { data.info.dst = d; }

  constexpr uint16_t getDst() const noexcept { return data.info.dst; }

  constexpr void setFlowId(uint8_t f) noexcept { data.info.flow_id = f; }

  constexpr uint8_t getFlowId() const noexcept { return data.info.flow_id; }

  constexpr uint32_t getHashKey() const noexcept { return data.hash_key; }

 private:
  GroupTupleData data;
};

struct UnionHashFn {
  constexpr std::size_t operator()(const GroupTuple& gtup) const noexcept {
    return gtup.getHashKey();
  }
};

struct CombinedHashFn {
  std::size_t operator()(const GroupTuple& gtup) const noexcept {
    std::hash<uint16_t> hasher{};
    return hasher(gtup.getSrc()) ^ hasher(gtup.getDst()) ^
           hasher(gtup.getFlowId());
  }
};


static void UnionHashFnBench(benchmark::State& state) {
  unsigned long i = 0;
  UnionHashFn hasher;
  GroupTuple group_tuple;

  size_t key = 0;
  for (auto _ : state) {
    group_tuple.setSrc(i++ % 32);
    group_tuple.setDst(i++ % 32);
    group_tuple.setFlowId(i++ % 32);
    key = hasher(group_tuple);
    benchmark::DoNotOptimize(key);
  }
}
BENCHMARK(UnionHashFnBench);

static void CombinedHashFnBench(benchmark::State& state) {
  unsigned long i = 0;
  CombinedHashFn hasher;
  GroupTuple group_tuple;

  size_t key = 0;
  for (auto _ : state) {
    group_tuple.setSrc(i++ % 32);
    group_tuple.setDst(i++ % 32);
    group_tuple.setFlowId(i++ % 32);
    key = hasher(group_tuple);
    benchmark::DoNotOptimize(key);
  }
}
BENCHMARK(CombinedHashFnBench);

PS：我知道制作地图或 unordered_map 比对哈希函数的成本进行基准测试更复杂，而且我也知道我为从我的哈希中获取哈希所做的按位操作class 不是获取哈希的好方法，只是为了有一个简单的例子

Answer 1

std::hash<uint16_t> 只是身份（老实说，这是有问题的），所以表达式：

hasher(gtup.getSrc()) ^ hasher(gtup.getDst()) ^ hasher(gtup.getFlowId())

将优化为非常简单的表达式。它的代码只是：

   lea    -0x2(%rax),%ecx
   lea    -0x1(%rax),%edx
   xor    %ecx,%edx
   xor    %eax,%edx
   and    [=10=]x1f,%edx

另一方面，计算hash_key需要更多的努力：

   mov    %edx,%esi
   and    [=11=]x1f,%esi
   mov    %ecx,%edi
   and    [=11=]x1f000,%edi
   or     %rsi,%rdi
   add    [=11=]x3,%rdx
   mov    %eax,%esi
   and    [=11=]x1f000000,%esi
   or     %rdi,%rsi

因此 hash_key 方法较慢也就不足为奇了。

散列 32 位整数比对 3 个 16 位整数的散列按位运算慢？

hashing a 32bit integer is slower than bitwise operation on hash of 3 16bit integers?

c++

benchmarking

performance-testing

compiler-optimization