受生物界启发!IBM发明了一种比以往更快、更安全的新哈希算法BioHash

2020/07/02      2338 文章来源:前瞻网 原作者:Winnie Lee

这种新算法应用“局部”和“生物学上合理的”突触可塑性规则来生成哈希码。

研究人员们表示,它比之前发布的各种哈希方法的基准测试都要好,而且它可以生成对相似度搜索有用的二进制表示。

在一份预印版的论文中,研究人员详细解释了他们的工作,这种被称为扩展表征的现象在神经生物学中几乎无处不在。“扩展”是指将高维输入数据映射到甚至更高维的辅助表示。

例如,在上面提到的果蝇嗅觉系统中,大约有50个神经元将它们的活动发送到大约2500个叫做Kenyon 的细胞中,实现了大约50倍的扩展。

从计算的角度来看,扩展可以增加AI模型的内存存储容量。正是基于这种动机,该团队设计了散列算法BioHash,可用于相似度搜索。

在相似度搜索中,给定一个查询、一个相似度度量和一个包含任意数量项的数据库,目标是从数据库中检索与查询最相似的项的排序列表。

更多的优势

随着技术发展,传统的单因素身份验证(仅基于密码、令牌或生物识别方法)似乎不足以应对身份欺诈的挑战。唯一的生物统计学方法遇到了隐私侵犯和不可撤销的问题,而密码和令牌则很容易忘记和丢失。

为了解决这些问题,人们引入了可取消生物特征识别的概念来表示生物特征模板。这就是说,生物特征可以被取消并替换为包含另一个独立的身份验证因子。

生物散列就是一种可取消的生物特征识别技术,它混合了一组用户特定的随机向量和生物特征。

BioHash是一种结合标记随机数和生物特征识别的技术。BioHash是一个随机投影的集合,它在保持类内变化的同时增强类间变化,因此,当使用合法的令牌或生物特征数据被窃取时,它能够实现零误差率。

在验证设置中,当使用真正的令牌时,BioHash能够提供比单一生物统计方法低得多的错误率,同时解决了传统生物特征识别技术存在的不可撤销性和隐私侵犯问题。

传统算法的另一个问题是,当数据是高维的(例如图像或文档),而数据库很大(以百万或数十亿计的条目为单位),这在计算上具有挑战性。

BioHash速度更快,可扩展性更强。该系统以其不可变的特性被广泛应用于各种安全系统中。

研究人员在MNIST和CIFAR-10上对Biohash进行了培训和测试。MNIST是一组包含7万张灰度图像的手写数字,其中10类数字从“0”到“9”不等,CIFAR-10是一个包含6万张来自10种类图片(如“car”、“bird”)的数据集。

MNIST 数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST). 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50%是高中学生, 50%来自人口普查局(the Census Bureau)的工作人员. 测试集(test set) 也是同样比例的手写数字数据。

CIFAR-10与之类似,只不过把数字换成了图像。10类图片各自独立,不会出现重叠。这两类都是非常经典的常用于算法训练的数据集,提供公开下载。

经过数据库的“检验”后,研究人员表示,BioHash在速度方面表现出了最好的检索性能,远远超过了其他方法,而BioHash的改进版本——BioConvHash——由于加入了专门构建的过滤器,性能甚至更好。

人脑与人工智能

由于人脑的学习、认知等能力远超目前的计算机,许多研究都正致力于让计算机更加靠近人脑性能,这其中就包括从结构、运行方式等各方面模拟人脑。

而人的神经生物学和机器学习领域也是密切相关。目前火热的神经网络技术的诞生就是受到人脑神经元的启发。

百度大脑就用计算机技术模拟人脑神经网络,包括模拟人脑学习分析能力,从而通过多层的学习模型和海量的训练数据进行数据智能分析,然后做出预测。

谷歌母公司Alphabet旗下的DeepMind本月早些时候也发表了一篇论文,研究大脑是否以概率分布(一种提供不同结果发生概率的数学函数)而非单一平均值来代表未来可能的奖励。

谷歌和马克斯·普朗克神经生物学研究所的科学家最近也展示了一种递归神经网络——一种经常用于手写和语音识别的机器学习算法——它可以映射大脑的神经元。

马斯克的想法则更加疯狂——开发脑机交互技术,直接将机器植入人类脑部。

不管怎样,“人工智能”终究离不开“人工”二字。通过学习人类自身,或许有一天人工智能真能发展到与人类相媲美的地步。