2016-06-29 TalkingData 锐眼看世界:Streamsets、Big Data Analysis、Algorithm、Big Data Ecosystem

28 Jun 2016   Streamsets   Big Data Analysis   Algorithm   Big Data Ecosystem


本期带来 Streamsets 调查结果;大数据生态系统概览;大数据分析在温网中的应用;如何看待算法偏差等内容。

【新闻】调查显示部分企业正深受劣质数据折磨

近日,StreamSets 联合 Dimensional Research 就大数据流管理现状议题对 300 数据从业人员进行了调查。结果显示,三分之二被调查者遇到了数据质量类问题,具体包括准确度,完整性和一致性难题。另外,超过一半企业对大数据安全性和运营类问题感到头疼。详细调查结果请点击原文链接阅读。

原文链接:Survey Shows Enterprises Struggling with Bad Data


【新闻】温布尔登网球公开赛中的大数据分析

今年,具有强大机器学习能力的 Watson 系统将会预测球迷的关注点,帮助社交媒体发布球迷喜闻乐见的内容。此前,大数据分析只能根据用户发布的信息追踪社交媒体的热点内容,然而今年将能够在预测热点后帮助媒体发布内容。

原文链接:The Amazing Ways Big Data And Analytics Are Used At Wimbledon 2016


【观点】大数据生态系统概览

大数据系统到底包涵几层技术栈?有些什么标准和引擎?从 BI/analytics,distributions, execution engines 至 SQL、数据集、数据流、编程语言。此文简要描述了大数据生态系统的现状。

原文链接:The Big Data Ecosystem is Too Damn Big


【观点】为什么我们应认为算法是有偏差的?

长时间以来,人们似乎神话了算法,认为他们一定比算法开发者更客观。然而,算法是否也会反应一定程度的人为偏差呢?文中指出,尤其在金融借贷行业,使用机器学习算法评估信用容易包涵人为偏差。另外,除了算法本身,在将数据导入程序的过程中,也易产生偏差。

原文链接:Why We Should Expect Algorithms to Be Biased


扫描二维码关注我们的微信公众号: