尊龙凯时·AG旗舰厅(中国区)有限公司官网|【调查】数据科学家最常用的十种算法和方法

发布时间：2025-10-15 17:55:34 次浏览

1新智元编译1来源：kdnuggets.com作者：GregoryPiatetsky译者：刘小芹AIWorld2016世界人工智能大会【倒计时5天，点击“阅读原文”抢票！！】? 业界领袖回溯60年AI历史，全球对话人工智能未来挑战，权威发布2016世界人工智能名人堂及中国人工智能产业发展报告；? 国际大咖“视频”远程参会， Bengio 和李飞飞联袂寄语中国人工智能；? 探秘讯飞超脑及华为诺亚方舟实验室，最强CTO与7大研究院院长交锋；? 滴滴CTO与百度首席架构师坐镇智能驾驶论坛，新智元三大圆桌阵容史无前例；? 中国“大狗”与'X-Dog'震撼亮相，龙泉寺机器僧“贤二”卖萌。最近KDnuggets针对数据科学家最常使用的算法作了一个调查，有一些意外的发现，包括最学术向的算法和最产业向的算法。下面是调查结果，总调查人数是 844 人。数据科学家最常用的Top 10种算法和方法，以及投票比例：表1：数据科学家最常用的Top 10算法方法。所有算法和方法的列表在文末。说明：这个投票的本意是找出数据科学家最常用的工具，但“工具”这个词含义不明确，所以为了简便我最初把这个表成为top 10“算法”。当然，正如有读者指出的，“统计学”或“可视化”以及其他几个都不是算法，更好的描述应该是“方法”。所以我把这个表更名为Top 10算法和方法。投票者平均使用的算法/方法数是8.1中，比2011年的类似调查增加了很多。在2011年的调查“数据科学/数据挖掘的常用算法”中，我们提到最常用的方法是回归、聚类、决策树/决策规则，以及可视化。两次调查中投票数增加最多的是：提升方法，2016年票数占32.8%，2011年占23.5%，票数增加40% 文本挖掘，从2011年的27.7%到2016年的35.9%，票数增加30% 可视化，从2011年的38.3%到2016年的48.7%，票数增加27% 时间序列/序列分析，从2011年的29.6%到2016年的37.0%，票数增25% 异常/偏差检测，从2011年的16.4%到2016年的19.5%，票数增加 19% 集成方法，从2011年的28.3%到2016年的33.6%，票数增加19% SVM，从2011年的28.6%到2016年的33.6%，票数增加18% 回归，从2011年的57.9%到2016年的67.1%，票数增加16% 2016年新增的回答有： K-NN，占比46% PCA，占比43% 随机森林，占比38% 优化，占比24% 神经网络 –深度学习，占比19% 奇异值分解，占比16% 投票数减少最多的有：关联规则，从2011年的28.6%到2016年的15.3%，减少了47% 增量建模，从4.8%到3.1%，减少了36% (这个让人吃惊) 因素分析，从18.6%到14.2%，减少了24% 生存分析，从9.3%到7.9%，减少了15% 下面的表格表示不同算法类型的应用：监督、无监督、元，及其他，以及投票者职业类型的占比。在职业类型中，我们排除了“未回答”（4.5%）和“其他”（3%）。我们发现，几乎所有人都使用监督式学习算法。政府和产业数据科学家比学生或学术研究人员使用更多不同类型的算法。产业数据科学家更喜欢元算法。接下来，我们分析了不同职业人士最常用的10中算法+深度学习：为了让结果更清晰，我们计算了职业类型和平均算法使用的偏差，即偏差（ALG，类型）=使用（ALG，类型）/使用（ALG，所有）。图2：按职业类型分的算法使用偏差我们发现，产业数据科学家更喜欢用回归、可视化、统计、随机森林和时间序列。政府/非营利机构用得更多的是可视化、PCA和时间序列。学术研究者更常用的是PCA和深度学习。学生普遍上使用的算法较少，常用的是文本挖掘和深度学习。接下来我们分析了能代表 KDnuggets 整体用户的具体地区参与人数：投票参与者的地区分布：美国/加拿大，40% 欧洲，32% 亚洲，18% 拉丁美洲，5.0% 非洲/中东，3.4% 澳大利亚/新西兰，2.2% 在2011年的投票中，我们把产业/政府和学术研究者/学生分别合并成一个组，并用以下公式计算产业/政府的算法“亲和度”：N(Alg，Ind_Gov) / N(Alg，Aca_Stu)------------------------------- - 1N(Ind_Gov) / N(Aca_Stu)因此，亲和度为0的算法表示它在产业/政府和学术研究者或学生中的使用情况一致。IG值越高，表示这个算法越“产业向”，越低，表示算法越“学术向”。2011年的调查中，最“产业向的算法”是：增量建模，2.01 异常检测，1.61 生存分析，1.39 因素分析，0.83 时间序列/序列，0.69 关联规则，0.5 在最新的调查中，增量建模（uplift modeling）是最“产业向的算法”，令人惊奇的发现是使用它的人非常少——只有3.1%，是这个调查中得票数最少的算法。最“学术向的算法”是：常规神经网络，-0.35 朴素贝叶斯，-0.35 支持向量机（SVM），-0.24 深度学习，-0.19 EM， -0.17 下面的图表列出了所有的算法和它们的产业/学术亲和度。图3：数据科学家最常用的算法：产业 vs 学术下面的表格列出了所有算法的细节，%表示两次调查中该算法的得票数占比，以及比重的变化（%2016/%2011 -1）。表3：KDnuggets 2016调查：数据科学家使用的算法N：按投票数的排序Algorithm：算法名称Type: S – 监督（Supervised）， U – 无监督（Unsupervised）， M – 元（Meta）， Z – 其他2016 % ：2016年该算法的得票率2011 % ：2011年该算法的得票率change (%2016 / %2011 - 1)：得票率变化Industry affinity：如上文解释。原文链接：http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html 豪华嘉宾阵容，共飨 AI 盛宴 7 大院长齐聚新智元智库院长圆桌论坛2016世界人工智能大会技术论坛特设“新智元智库院长圆桌会议”，重量级研究院院长7剑下天山，带来最前沿的AI研究动态、剖析技术发展趋势。七位人工智能界“高手”现场过招，思想的激烈碰撞会给目前的人工智能发展带来哪些洞见？七位院长对行业的发展会有哪些前瞻揭秘？10月18日下午，2016 世界人工智能大会技术论坛，答案将逐层揭晓。新智元智库院长圆桌汇集了中国人工智能产学研三界最豪华院长阵容：美团技术学院院长刘江担任主持人，微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。2016世界人工智能大会技术论坛议程扫描二维码购票：购票链接：http://www.huodongxing.com/go/aiworld2016也可点击‘阅读原文’直接购票票务联系 132·4023·6748

上一篇：尊龙凯时·AG旗舰厅(中国区)有限公司官网|吃烧烤得留意！青岛发现有烤肉铅超标7倍，致癌剂超标5倍

下一篇：尊龙凯时·AG旗舰厅(中国区)有限公司官网|TUWE（图威）：为优雅时尚“袋”言

尊龙凯时·AG旗舰厅(中国区)有限公司官网|【调查】数据科学家最常用的十种算法和方法

网站导航

联系我们

关注我们