见人说人话见鬼说鬼话,SQL是九阳神功Python是倚天剑R是屠龙刀
理想是美好的,现实是冷酷的,人在屋檐下,不得不低头啊1. 有数据库的时候,就只用SQL;
2. 没有数据库的时候,也没有条件建库的时候,1G以下的CSV可以勉强用EXCEL手工处理,1G以上的就必须用Python或者R等语言了;
3. 5个G的CSV巨型文件,如果只是统计,那么就用R。如果除了统计之外,还需要重新处理排序和归纳数据列表,那就用Python;
4. SQL是查询语言,R是统计语言,Python是多功能编程语言(可以兼任查询和统计的功能,当然也可以像JAVE和C一样编程序);
5. 为什么会没有数据库呢?大型互联网和金融分析,需要当天或者2-3个小时内出结果,客户出于安全等考虑,不会授权给乙方数据库操作权限。所以,你只有一个SFTP上面导出的CSV文件,或者AWS CLOUD直接Read Only文件,10G数据量,2个小时内出结果,你的IT DBA不可能给你资源建库,导入数据,然后慢慢用SQL和BI工具处理,你也没有那么多时间。所以Python和R就是你的好朋友了;
6. 即使是甲方自己的人员,出于Production服务器的运行效率,也不会允许BI或者DA等人员,直接在后台数据库上跑SQL,而且很多最新的Apps后台用的也不是传统的SQL服务器,根本无法用SQL+BI的传统方法;
7. 但是对于一个数据科学家或者Data Engineer,90%还是需要SQL,毕竟那种极端案例不多,不是天天都需要996,711去处理10个G的CSV文件,90%的企业,包括亚麻厂,鸽厂,窗户厂,平时也还是在用SQL+BI+PPT去汇报;
8. SQL是九阳神功,Python和R是倚天剑和屠龙刀,没有SQL,任何人在大数据分析这个行业里,走不长,也走不远,很多大学毕业的小孩,尤其是财务背景的文科生转到BI或者DA,总想弯道超车绕过SQL,那是走不通的,SQL无法被超越和替代,SQL是一切万物的基础体能,3000米都跑不下来,还学踢足球?
百尺竿头更进一步...
页:
[1]