Skip to content

Latest commit

 

History

History
247 lines (124 loc) · 12.6 KB

i-code-in-python-for-ml-and-nlp-but-you-should-learn-r-before-2023-747474293c23.md

File metadata and controls

247 lines (124 loc) · 12.6 KB

我用 Python 为 ML 和 NLP 编码,但是你应该在 2023 年之前学会 R

原文:https://pub.towardsai.net/i-code-in-python-for-ml-and-nlp-but-you-should-learn-r-before-2023-747474293c23?source=collection_archive---------1-----------------------

你应该学习 R 的 6 个理由,什么使 R 有效,R 的闪光点在哪里,以及 R 的最佳实践

来自 Unsplash 的 Quino Al

我在 Python 的道路上走了这么远,接受了广泛的培训、专业经验和教育,以至于我已经看不到 R 已经成长了多少,特别是在它跨越统计用例的生命周期执行和卓越的可视化能力方面。

你要了一份报纸——给你!没有绒毛;直奔主题。

除此之外,R 对于数据科学的实现非常有效。

通常,我采用自上而下的方法来定义和扩展给定主题的知识库。

由来自 Unsplash 的 Afif Kusuma

R 的描述

使用 R 编程进行统计分析和部署数据的图形化表示。

r 是一种函数式编程语言,支持向量运算和矩阵代数。r 还可以制作出版物质量的图形,并具有广泛的统计和机器学习算法。r 是高度可扩展的,许多软件包可用于数据分析,包括流行的“tidy verse”[4]软件包集合。r 是开源软件,可以从 CRAN 网站上免费获得[5]。

R 用例(持续更新—高级主题)

以下是 25 个用例,未删节版,按知识领域/专业领域分类:

(1)数据可视化(2)数据分析(3)数据操纵(4)机器学习(5)深度学习[8];

(6)预测分析(7)优化(8)模拟(9)网页开发[6] (10)系统管理;

(11)数据挖掘(12)统计计算(13)生物信息学[10] (14)数据新闻学(15)计量经济学;

(16)保险(17)营销[9] (18)零售(19)网络抓取(20)社交媒体分析;

(21)情感分析(22)网络分析(23)地理空间分析[7] (24)文本挖掘(25)商业智能。

来自 Unsplash 的米凯拉·帕兰特

R 有效的原因(持续更新)

1.r 是一个强大的数据分析工具,具有许多内置的统计和机器学习功能。

2.r 是一种解释型语言,这意味着代码不需要先编译就可以运行。这使得测试新想法和快速原型解决方案变得切实可行。

3.r 有一个庞大而活跃的社区,有许多在线的有用资源。

4.r 是在 GNU 通用公共许可证[1]下发布的免费开源软件。这使得每个人都可以访问它,并允许修改和改进。

5.r 是跨平台的,这意味着它可以在 Windows、Mac 和 Linux 上使用。

6.r 可以与其他软件环境和语言顺利集成,使其在各种设置中易于使用。

7.r 的语法简单易懂,易于学习,即使对于没有编程经验的人来说也是如此。

8.r 是高度可定制的[2],允许用户根据他们的特定需求定制软件。

9.r 的绘图和可视化功能非常有效,可以轻松生成复杂的图表和图形。我还没有遇到一个人声称 Python 比 r 有更好的图表和可视化能力。

10.r 是探索性数据分析的优秀工具[3],为调查数据集提供了一个灵活的交互式环境。

来自 Unsplash 的哈桑·帕夏

你应该学习 R 而不是 Python 的理由(持续更新)

1.r 是一种统计编程语言,专门用于处理数据。Python 是一种通用编程语言,允许它用于许多不同的事情。

2.r 被设计用来处理 dataframes [24],这是一种在统计分析中普遍存在的数据结构。不幸的是,Python 没有本地 dataframe 数据类型,这使得处理数据更加困难。

3.r 有许多内置的统计分析函数,使得处理特定数据更加容易。Python 没有太多的内置统计函数,这使得在更大的统计空间内进行数据分析更加困难。

4.r 是一种基于向量的语言,这意味着大多数操作都是在数据向量上执行的[25]。这对于数据分析非常有帮助,因为它允许您毫不费力地对多个数据点应用操作。另一方面,Python 不是基于向量的语言,使得数据分析更加困难。

5.r 有一个非常活跃的用户社区,这意味着有很多资源可以用来学习如何使用这种语言。Python 也有一个很大的用户社区,但是 R 的社区围绕专门的主题更加活跃,在需要的时候更容易找到帮助。

6.r 是免费和开源的,这意味着任何人都可以免费使用它。当然,Python 也是开源的,但是 R 在科学界使用得更广泛,这使得找到具体的、有用的资源变得更容易。

由来自 Unsplash 的马修·施瓦茨

R 和 Python 的相似之处(持续更新)

1.两者都是解释语言,这意味着代码是逐行执行的,而不是同时编译的。

2.它们是高级语言;它们从底层系统中抽象出来,易于读写。

3.它们是免费和开源的;任何人都可以使用它们并为之做出贡献。

4.r 和 Python 是跨平台的:它们可以在不同的操作系统上使用。

5.r 和 Python 都有丰富的库;已经写了很多可以重用的代码。

6.r 和 Python 都是面向对象的:代码被组织成可以操作的对象。

7.r 和 Python 都有大量的文档;有很多关于如何使用它们的信息。

8.r 和 Python 都受到大型社区的支持:许多人可以帮助使用或开发它们。

9.r 和 Python 都用于数据科学;它们非常适合数据分析和机器学习任务。

10.r 和 Python 都是通用语言——它们可以用于各种任务。

来自 Unsplash 的 Michal Vrba

R 和 Python 的区别(持续更新)

r 是一种用于统计分析、图形表示和报告的编程语言和软件环境。Python 是一种解释型高级通用编程语言。

  1. R 是统计语言,Python 是通用编程语言。

  2. R 设计用于统计分析和数据可视化,而 Python 更适合通用编程和创建算法。

  3. R 的学习曲线比 Python 更陡。

  4. R 有很多专门的语法和术语,而 Python 更简洁易读。

  5. R 调试起来可能很有挑战性,而 Python 可以是更直观的调试过程。

  6. R 比 Python 有更多的内置统计函数[21]。

  7. R 比 Python 有更丰富的图形库。

  8. R 可能很难扩展,而 Python 更模块化,容易扩展[22]。

  9. R 不一定像 Python 一样被广泛使用(与使用 Python 和 R 实现的可用用例数量相比)。

  10. R 是根据 GNU GPL [1]授权的,而 Python 是根据 Python 软件基金会许可证[23]授权的。

来自 Unsplash 的约根德拉·辛格

R 闪耀的用例

1.分析和预测财务数据。

2.研究消费者行为。

3.理解 DNA 和其他序列数据中的模式[11]。

4.根据用户过去的行为向他们推荐电影和其他项目。

5.跟踪和预测疾病的传播[12]。

6.研究营销活动对销售的影响。

7.跟踪和预测天气[13]。

8.分析社交媒体数据,发现有趣的模式。

9.研究药物对患者的影响[14]。

最佳实践

1.使用 set.seed() :这很重要,因为它确保了你的结果是可重复的[15]。如果没有 set.seed,随机数生成器将在每次运行代码时生成不同的数字,从而导致结果的差异。

2.使用 % > % :管道操作符(% > %)是让你的代码可读性更好的好方法[18]。它将左侧的输出输入到右侧。

3.避免使用全局变量[16]:全局变量在整个 R 会话中都是可用的。使用全局变量会导致代码中的意外变化,并使代码难以阅读。

4.使用函数:函数是避免重复代码的好方法。例如,如果您发现自己在重复编写相同的代码,那么您可以创建一个函数来完成这项工作,从而使代码更加简洁易读。

5.使用 RStudio: RStudio 是一个用于 R 的 IDE(集成开发环境),它包含了许多使 R 编程更容易的特性,比如语法高亮和代码完成[17]。

6.保持你的代码整洁,比如让代码有条理并且易读。一种方法是使用空格来缩进你的代码,使它更容易扫描[19]。

7.使用注释:注释是一种很好的方式,可以让你的代码更易读,并解释你的代码在做什么。写评论的时候,一定要清晰简洁。

8.使用内置帮助:R 有大量关于其所有函数的文档。

9.遵循风格指南:Hadley Wickham 风格指南[20]是一个广泛使用的 R 编程风格指南。遵循一个风格指南会使你的代码更加一致和易读。

10.使用版本控制:版本控制是一个系统,它可以让你跟踪代码随时间的变化。这对于跟踪您的工作和与他人协作非常重要。

如果您有任何编辑/修改建议或关于进一步扩展此主题的建议,请考虑与我分享您的想法。

另外,请考虑订阅我的每周简讯:

[## 周日报告#1

设计思维与 AI 的共生关系设计思维能向 AI 揭示什么,AI 又能如何拥抱…

pventures.substack.com](https://pventures.substack.com/)

参考文献:

1。r 许可证。https://www.r-project.org/Licenses/

2。https://www.r-project.org/about.html简介

3。服务—语义实验室。【https://www.semanticlabs.at/services】[](https://www.semanticlabs.at/services)

**4。蒂德维斯。

5。克兰网站下载 r .https://cran.r-project.org

6。闪闪发光。https://shiny.rstudio.com

7。r:制图和地理空间。【https://guides.library.duke.edu/r-geospatial】T21

8。R. 深度学习入门 https://www . r studio . com/blog/getting-started-with-deep-learning-in-r/

9。这就是为什么每个现代市场都需要 R 编程。https://www . CMS wire . com/digital-marketing/heres-why-every-modern-market-needs-r-programming/

10。基因组学 R 和 RStudio 简介。https://datacarpentry.org/genomics-r-intro/

11。使用 R 进行生物信息学。https://a-little-book-of-r-for-bio informatics . readthedocs . io/en/latest/src/chapter 1 . html

12。新冠肺炎冠状病毒 100 大资源。https://statsandr . com/blog/top-r-resources-on-新冠肺炎冠状病毒/

13。深度学习天气预报导论。https://blogs . r studio . com/ai/posts/2020-09-01-天气预测/

14。利用 R 编程进行临床试验数据分析。https://www . quanticate . com/blog/r-programming-in-clinical-trials

15。在 r .设置种子

16。R 的未来:常见问题及解决方案。https://cran . r-project . org/web/packages/future/vignets/future-4-issues . html

17。RStudio。https://www.rstudio.com

18。如何在 R: 7 运算符使用示例中使用%n%。【https://www.marsja.se/how-to-use-in-in-r/】T21

19。干净整洁的 R-script。https://davidzeleny . net/wiki/doku . PHP/recol:clean _ and _ tidy _ script

20。高级 R 风格指南。http://adv-r.had.co.nz/Style.html

21。Python vs. R:有什么区别?https://www.ibm.com/cloud/blog/python-vs-r

22。扩展和嵌入 Python 解释器。https://docs.python.org/3/extending/index.html

23。历史和执照。https://docs.python.org/3/license.html

24。第六章。使用数据框。https://book down . org/DLI/r guide/working-with-data-frames . html

25。R —矢量。https://www.geeksforgeeks.org/r-vector/