如何用10个大数据技术方案解决一个问题
|
数据分析技术一直在不断的发展。旧的关系数据库系统变得越来越不受欢迎。现在,我们必须通过一些新的技术来找到我们的方法,这些技术可以处理大的(和流的)数据,最好是在分布式环境中。
![]() Python现在很流行当然也有很多其他的选择。SQL大行其道,而其他一些老古董仍然存在。 本文试图为一个简单的挑战,提供10种不同技术编写的10个解决方案:
![]()
通过这些技术,使用Grouplens网站提供的两个CSV数据集列出十大最受欢迎的电影。 数据集
![]()
目标 我们将聚合收视率数据(u.data)来计算每个movie_id的平均收视率,并找到平均收视率最高的10部电影。
![]()
1. AWK
![]()
Step 1: Join the Datasets Step 2: Sort, Cut and TR
![]()
Step 3: AWK Step 4: Again AWK Step 5: Sort, Head and TR 2. PERL
![]()
![]()
3. BASH
![]() ![]()
4. SQL(PostgreSQL)
![]()
![]()
![]()
5. Python with Pandas
![]()
6. MapReduce With MRJob in Python
![]() ![]()
7. Pig Latin
![]()
8. Hive
![]()
![]()
![]()
![]()
9. Spark with Scala
![]()
10. MongoDB
![]()
![]()
![]()
![]()
详细原文:https://dzone.com/articles/one-challenge-with-10-solutions |
时间:2019-11-03 15:52 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。