R国外辅导、AirBnB & Zillow 数据分析辅导
- 首页 >> Algorithm 算法挑战和期望
在开始本次挑战前,请牢记我们对于选手的基本要求:
»创造性思维: 找出最高效的处理方式; 务必使用自动化的高效的方法来取代繁琐且重复性的的工作。
»数据分析思维: 充分了解我们即将处理的数据,找出最佳的切入点。
»商业头脑:如何跟其他人解释你的项目一样重要,能否让他人理解你的项目决定了你的项目成功与否.
问题描述及指引
问题阐述
现在New York有一家公司,他们想要购买房产来向客户提供短期出租,并且公司已经得出了一个结论:两个卧室的房产是最能创造利润的,但是公司还不知道哪一个地区(邮编)是最佳的投资地。如今你是这个公司新招进的一名数据分析师,你现在需要做的就是进行数据分析找出哪一个邮编所在的地区可以产生最多的利润。
在Zip_Zhvi_2bedroom.csv这个数据文件中,Zillow公司为我们提供了各地不同邮编地区的房产价值中位数的历史数据(由此我们应该可以大致估算公司在一个区域购买房产所需要的成本)。
而AirBnB是如今投资者们最喜爱使用的房屋出租中介网站之一,从AirBnB提供的这些数据中,我们可以看到New York城里不同地区房屋出租的情况。
•You can assume an occupancy rate of 75% or you can come up with your own model to calculate occupancy; just let us know how you came to that calculation
在与你的领导进行会议后,你大致对整个项目有了大致的了解,同时,公司领导告诉你公司目前有着如下的假设:
1.公司购买房产时会全额付款(所以不会有利息,不会有其它额外的费用之类的)
2.钱的价值随着时间的变化是不会改变的(比如100年前的1元前到了今天还是1元)
3.在同一地区(邮编),每平方英尺的成本和收益是相同的。就是说,假如在Manhattan区,1000平方英尺的收益是500平方英尺的收益的两倍,1000平方英尺的成本也是500平方英尺的成本的两倍。
4.对于Zillow的数据,虽然Zillow给我们的是每年各地两个卧室的房屋价值的平均数,并没有给出房屋的面积,但是我们通过资料查询可以得知NYC的两个卧室的房屋的平均面积是1000平方英尺。
5.公司假设
指引
当你拿到数据时,你首先要意识到这是一个现实世界中的有缺陷的数据,所以我们认为你大致需要三个小时来完成这个数据分析挑战。如果你对某些问题不太确定,你也可以提出自己的假设,但一定要确定你的假设是说得通的,同时,也一定要用一个document来记录下你所建立的假设。
总的来说,我们希望你能在如下三个方面完成这个数据分析作业:
1.数据清洗
•不准确的数据比没有数据更加糟糕
•清洗你认为不重要或者很糟糕的数据并创建新的数据库
2.数据分析
•利用你的数据分析技巧,找出对于影响最终结果重要的因素
3.数据可视化
•对你所有的数据分析结果进行可视化,比如说你认为地理位置会影响房价,请将此结果可视化出来
所需的工具:
R(可能用到的packages:Shiny, plyr, ggplot)