散列 32 位整数比对 3 个 16 位整数的散列按位运算慢?
hashing a 32bit integer is slower than bitwise operation on hash of 3 16bit integers?
我正在开发对延迟敏感的软件。今天,我决定通过在联合中使用 BitField 结构来缩小我的结构,并将该 BitField 结构读取为一个整数,我将其用作我的哈希函数的唯一键。我期望从我的唯一键上的散列获得比对我的 class 的属性散列的按位运算略微(如果不是很多)更好的性能,但事实证明进行按位运算以获得散列键很多快多了?我一直在试图找出原因,但我无法得出任何结论。
这是我的代码:http://quick-bench.com/OkNuVOxdVtW8g7OWUXjqcvYlNrs
#include <functional>
struct GroupTupleInformation {
unsigned int src : 12;
unsigned int dst : 12;
unsigned int flow_id : 8;
};
union GroupTupleData {
GroupTupleInformation info;
uint32_t hash_key;
};
struct GroupTuple {
constexpr void setSrc(uint16_t s) noexcept { data.info.src = s; }
constexpr uint16_t getSrc() const noexcept { return data.info.src; }
constexpr void setDst(uint16_t d) noexcept { data.info.dst = d; }
constexpr uint16_t getDst() const noexcept { return data.info.dst; }
constexpr void setFlowId(uint8_t f) noexcept { data.info.flow_id = f; }
constexpr uint8_t getFlowId() const noexcept { return data.info.flow_id; }
constexpr uint32_t getHashKey() const noexcept { return data.hash_key; }
private:
GroupTupleData data;
};
struct UnionHashFn {
constexpr std::size_t operator()(const GroupTuple& gtup) const noexcept {
return gtup.getHashKey();
}
};
struct CombinedHashFn {
std::size_t operator()(const GroupTuple& gtup) const noexcept {
std::hash<uint16_t> hasher{};
return hasher(gtup.getSrc()) ^ hasher(gtup.getDst()) ^
hasher(gtup.getFlowId());
}
};
static void UnionHashFnBench(benchmark::State& state) {
unsigned long i = 0;
UnionHashFn hasher;
GroupTuple group_tuple;
size_t key = 0;
for (auto _ : state) {
group_tuple.setSrc(i++ % 32);
group_tuple.setDst(i++ % 32);
group_tuple.setFlowId(i++ % 32);
key = hasher(group_tuple);
benchmark::DoNotOptimize(key);
}
}
BENCHMARK(UnionHashFnBench);
static void CombinedHashFnBench(benchmark::State& state) {
unsigned long i = 0;
CombinedHashFn hasher;
GroupTuple group_tuple;
size_t key = 0;
for (auto _ : state) {
group_tuple.setSrc(i++ % 32);
group_tuple.setDst(i++ % 32);
group_tuple.setFlowId(i++ % 32);
key = hasher(group_tuple);
benchmark::DoNotOptimize(key);
}
}
BENCHMARK(CombinedHashFnBench);
PS:我知道制作地图或 unordered_map 比对哈希函数的成本进行基准测试更复杂,而且我也知道我为从我的哈希中获取哈希所做的按位操作class 不是获取哈希的好方法,只是为了有一个简单的例子
std::hash<uint16_t>
只是身份(老实说,这是有问题的),所以表达式:
hasher(gtup.getSrc()) ^ hasher(gtup.getDst()) ^ hasher(gtup.getFlowId())
将优化为非常简单的表达式。它的代码只是:
lea -0x2(%rax),%ecx
lea -0x1(%rax),%edx
xor %ecx,%edx
xor %eax,%edx
and [=10=]x1f,%edx
另一方面,计算hash_key
需要更多的努力:
mov %edx,%esi
and [=11=]x1f,%esi
mov %ecx,%edi
and [=11=]x1f000,%edi
or %rsi,%rdi
add [=11=]x3,%rdx
mov %eax,%esi
and [=11=]x1f000000,%esi
or %rdi,%rsi
因此 hash_key
方法较慢也就不足为奇了。
我正在开发对延迟敏感的软件。今天,我决定通过在联合中使用 BitField 结构来缩小我的结构,并将该 BitField 结构读取为一个整数,我将其用作我的哈希函数的唯一键。我期望从我的唯一键上的散列获得比对我的 class 的属性散列的按位运算略微(如果不是很多)更好的性能,但事实证明进行按位运算以获得散列键很多快多了?我一直在试图找出原因,但我无法得出任何结论。
这是我的代码:http://quick-bench.com/OkNuVOxdVtW8g7OWUXjqcvYlNrs
#include <functional>
struct GroupTupleInformation {
unsigned int src : 12;
unsigned int dst : 12;
unsigned int flow_id : 8;
};
union GroupTupleData {
GroupTupleInformation info;
uint32_t hash_key;
};
struct GroupTuple {
constexpr void setSrc(uint16_t s) noexcept { data.info.src = s; }
constexpr uint16_t getSrc() const noexcept { return data.info.src; }
constexpr void setDst(uint16_t d) noexcept { data.info.dst = d; }
constexpr uint16_t getDst() const noexcept { return data.info.dst; }
constexpr void setFlowId(uint8_t f) noexcept { data.info.flow_id = f; }
constexpr uint8_t getFlowId() const noexcept { return data.info.flow_id; }
constexpr uint32_t getHashKey() const noexcept { return data.hash_key; }
private:
GroupTupleData data;
};
struct UnionHashFn {
constexpr std::size_t operator()(const GroupTuple& gtup) const noexcept {
return gtup.getHashKey();
}
};
struct CombinedHashFn {
std::size_t operator()(const GroupTuple& gtup) const noexcept {
std::hash<uint16_t> hasher{};
return hasher(gtup.getSrc()) ^ hasher(gtup.getDst()) ^
hasher(gtup.getFlowId());
}
};
static void UnionHashFnBench(benchmark::State& state) {
unsigned long i = 0;
UnionHashFn hasher;
GroupTuple group_tuple;
size_t key = 0;
for (auto _ : state) {
group_tuple.setSrc(i++ % 32);
group_tuple.setDst(i++ % 32);
group_tuple.setFlowId(i++ % 32);
key = hasher(group_tuple);
benchmark::DoNotOptimize(key);
}
}
BENCHMARK(UnionHashFnBench);
static void CombinedHashFnBench(benchmark::State& state) {
unsigned long i = 0;
CombinedHashFn hasher;
GroupTuple group_tuple;
size_t key = 0;
for (auto _ : state) {
group_tuple.setSrc(i++ % 32);
group_tuple.setDst(i++ % 32);
group_tuple.setFlowId(i++ % 32);
key = hasher(group_tuple);
benchmark::DoNotOptimize(key);
}
}
BENCHMARK(CombinedHashFnBench);
PS:我知道制作地图或 unordered_map 比对哈希函数的成本进行基准测试更复杂,而且我也知道我为从我的哈希中获取哈希所做的按位操作class 不是获取哈希的好方法,只是为了有一个简单的例子
std::hash<uint16_t>
只是身份(老实说,这是有问题的),所以表达式:
hasher(gtup.getSrc()) ^ hasher(gtup.getDst()) ^ hasher(gtup.getFlowId())
将优化为非常简单的表达式。它的代码只是:
lea -0x2(%rax),%ecx
lea -0x1(%rax),%edx
xor %ecx,%edx
xor %eax,%edx
and [=10=]x1f,%edx
另一方面,计算hash_key
需要更多的努力:
mov %edx,%esi
and [=11=]x1f,%esi
mov %ecx,%edi
and [=11=]x1f000,%edi
or %rsi,%rdi
add [=11=]x3,%rdx
mov %eax,%esi
and [=11=]x1f000000,%esi
or %rdi,%rsi
因此 hash_key
方法较慢也就不足为奇了。