《R语言游戏数据分析与挖掘》新书推荐

《R语言游戏数据分析与挖掘》新书上市已经有一个多月,各大网店均有销售。这是一部从大数据技术和游戏业务双重维度讲解如何利用结果数据指导商业决策的实战性著作,乐逗游戏高级数据分析师撰写,是他近10年数据挖掘与分析经验的总结。数据是无价的,只有当数据被挖掘分析并帮助到企业的时候才是有价值的。传统的数据分析类图书重技术而轻业务,本书二者并重:技术方面,以游戏数据的挖掘与分析为核心,辐射游戏数据处理的各个环节,系统讲解游戏数据挖掘与分析的技术、方法论和工具;业务方面,所有案例的讲解过程中都对相关业务进行了重点解读,旨在加深数据分析师对游戏业务的理解和思考,从而更好地利用R语言技术解决游戏数据处理中的各种复杂问题。

很多读者担心自己没有R语言的基础是否适合此书,也有另外一些读者担心此书是否偏向游戏行业,不适合其他行业的数据分析师阅读。其实这些担忧都是多虑的,本书分为基础篇、实战篇和提高篇三大篇章,初学者也能通过学习基础篇的知识掌握R语言使用技巧,包括R语言数据对象、数据导入、数据处理、初级绘图和高级绘图等知识;实战篇是通过数据挖掘技术,对用户和收入进行深度挖掘,这些实战案例的解决方案具有行业通用性,可以很好地将思路移植到其他行业领域中;提高篇又分为rattle和shiny,rattle是一款优秀的R语言数据挖掘工具,shiny是RStudio公司开发的一个网页app开发框架,可以快速搭建数据分析挖掘原型,让不懂前端知识的数据分析师也具有平台开发能力。

基础篇包括游戏数据分析理论、R常用技巧和绘图技巧,R基础软件下载安装、扩展包(package)的安装,并详细介绍了如何将文本文件、excel文件、MySQL数据库数据、网络数据读入到R中,最后R三大绘图系统:base系统、lattice系统和ggplot系统的绘图技术以及交互式绘图(rCharts包、recharts包、plotly包以及其他基于HTMLWidgets包开发的交互包)。

实战篇包括数据处理技巧、路径行为分析、付费偏好深度挖掘已经各种分类算法的原理及R实现(KNN近邻、朴素贝叶斯、决策树、bagging、boosting、随机森林、人工神经网络以及支持向量机等算法),并利用caret包进行十折交叉验证选择最优模型。比如在对付费用户偏好的深度挖掘中,针对游戏用户总结了几种常用的数据挖掘技术:

其中,关联规则分析是购物篮经常应用的一种挖掘技术,基于物品协同过滤的方法来对玩家进行TopN商品推荐是目前电商流行的推荐算法之一,并利用社会网络分析中的社群发现技术研究用户购买物品的偏好。

在渠道用户质量分析一章中,书中借鉴时间管理理论中一个非常重要的四象限法则,对渠道用户进行象限划分,进而研究不同渠道的用户质量情况。书中利用Median-IQR方法分析ARPPU、ARPU、新增次日留存率和新增七日留存率等指标,查看不同渠道在一月份数据的集中及离散程度。这里使用中位数作为衡量中心的统计量,应用四分位距(IQR)作为离散指标的统计量更有意义。与更常用的均值和标准差相比,这些统计量在有离群值存在时更加稳健。

由于传统的数据分析技术都是针对单一维度进行研究,这样并未考虑到维度间的关系,本章最后还提出用户质量打分模型,利用能体现用户数量、用户质量和用户收入等原始指标,进行模型指标转化,并得到渠道用户质量得分,进而对渠道用户优劣进行综合评价。

在提高篇详细介绍了R语言数据挖掘工具Rattle,此工具能够在一个图形化的界面上完成数据导入、数据探索、数据可视化、数据建模和模型评估整个数据挖掘流程;最后一章介绍了Web开发框架shiny包,使得R的使用者不必太了解CSS、JS,只需要了解一些HTML的知识就可以快速完成Web开发。

本书理论与实践相结合,旨在帮助读者更好地了解数据科学实践的方法和技巧。推荐广大的 R 语言爱好者和学习者阅读和学习此书!

京东购买: https://item.jd.com/12128645.html

本文由谢佳标 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。

转载、引用前需联系作者,并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。


用户评论
开源开发学习小组列表