绮乐网

麻省理工学院CSAIL的机器学习算法有助于预测大数据流中的模式

网络

你听说过“布兰妮珍斯皮尔斯问题”吗?与听起来相反,这与富人和名人的风流韵事无关。相反,这是一个与数据跟踪相关的计算问题:为个人用户精确定制数据丰富的服务(如搜索引擎或光纤互联网连接),假设需要跟踪服务提供商发送和接收的每一个数据包,其实用性不言而喻。

为了解决这个问题,大部分公司使用算法,通过哈希数据(也就是把数据分成碎片)来猜测交换数据的频率。但这将不可避免地牺牲细微差别——大量数据中自然出现的模式在雷达下飞行。

幸运的是,麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员认为,他们已经设计出一种可行的替代方案,这种替代方案依赖于机器学习。

在一篇新发表的论文(“基于学习的频率估计算法”)中,他们描述了一个被称为LearnedSketch的系统,因为它“概述”了数据流中的数据——预测某些数据元素是否会比其他数据出现得更频繁,如果是的话,会自动将它们从其余的哈希中分离出来。

据本文作者介绍,这是第一个基于机器学习的方法,不仅用于频率估计,还用于流式算法,流式算法是一种输入数据以序列形式呈现,只能通过几次检查的算法。在许多应用中,它们被广泛用于安全系统和自然语言处理流水线。

该团队解释说:“这种(S)流算法通常假设一般数据,并且不利用其输入的有用模式或属性。”。“例如,在文本数据中,已知词的频率与词的长度成反比。同样,在网络数据中,一些应用程序往往比其他应用程序产生更多的流量。如果能利用这些性质,就能设计出比现有算法更有效的频率估计算法。”

在实验中,LearnedSketch展示了检测和隔离丰富数据的能力。例如,来自一级ISP的2.1亿个数据包已经被训练,其性能优于现有的用于估计网络中互联网流量的方法,并且误差降低了57%。考虑到380万个独特的AOL查询,它成功地估计了互联网搜索术语的数量,误差减少了71%。

而且,LearnedSketch很常见;它学到的结构可以应用到它从未见过的东西上。在一个实验中,它负责确定哪些互联网连接的流量最大,并通过其目标IP地址的前缀对不同的连接进行聚类,表明对产生大流量的互联网用户倾向于共享特定前缀的规则的理解。

研究人员认为,LearnedSketch(或类似的人工智能系统)有一天可以用于跟踪社交媒体上的热门话题,或识别网络流量中的故障峰值,并改善电子商务网站的产品推荐。但事实上,博士生、合著者陈玮宇说,天空才是极限。

“这些结果表明,机器学习是一种可以与经典算法范式一起使用的方法,如“分治”和动态编程,”Hsu补充道。“我们将模型与经典算法相结合,这样我们的算法自然继承了经典算法的最坏情况保证。”

标签:机器学习算法