R语言中赋值操作符“=”与“<-”的区别

在Stackoverflow上有网友遇到了如下代码问题:

x <- y <- 5
x = y  = 5
x <- y = 5
#Error in x <- y = 5 : could not find function "<-<-"

在一堆回答中Richie Cotton的回答很有说服力,翻译记录下来。
他首先提醒了给位R用户,使用 <- 赋值符号时最好在两边分别用空格分隔,因为 x<-5,很容易误解为x小于-5,
代码规范问题可由谢益辉童鞋写的formatR来解决。
对于上面的问题是如何产生的,我们得先了解R的[……]

Read more

化学需要机器学习(Machine Learning)吗?

在其他科学领域,例如生物学,药物学,心理学,统计学和物理学,机器学习和人工智能技术被越来越多的用于分析数据。这些技术对于化学也是适用吗?

回答是:Yes!

其实机器学习和人工智能在化学领域的应用由来已久,君不见哈佛大学的研究团队在近期的Nature封面文章AI预测晶体结构的准确性超越了经验丰富的科学家。在这之前哈弗大学做过有机光电材料

的数据挖掘研究,发了不少好文章。

在分析化学领域,机器学习被用于研究NMR,IR数据;无机化学里可以用机器学习预测晶体结构,无机催化剂等等;高分子里,可以预测蛋白质结构,聚合物玻璃化转变温度等。

介绍几篇相关文献:

Using Artificial[……]

Read more

600个专门研究R的网站和博客

  1. “R” you ready?
  2. [citation needed] » R
  3. [R] tricks
  4. 0xCAFEBABE
  5. 0xdata Blog
  6. 4D Pie Charts » R
  7. 56north | Skræddersyet dataanalyse » Renglish
  8. A Distant ObserveR
  9. A HopStat and Jump Away » Rbloggers
  10. a Physicist in Wall Street
  11. A Pint of R
  12. A Statistics Blog – R
  13. [……]

Read more

化学计量学和计算物理的R语言包汇总

CRAN Task View: Chemometrics and Computational Physics

Maintainer:
Katharine Mullen

Contact:
katharine.mullen at stat.ucla.edu

Version:
2016-02-18

Chemometrics and computational physics are concerned with the analysis of data arising in chemistry and physics experiments, as well as the[……]

Read more

回归分析中的梯度下降(Gradient descent)

本来需要介绍一下背景资料的,但是太麻烦了,直接贴两个很好的博客文章机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)梯度下降(Gradient Descent),一句代码,一个式子。本文也是主要基于这两个博文。话说国人写博客的时候很不愿意加上自己学习的参考资料,搞得好像东西都是自己原创似的,太不利于知识的传播了。

闲话少说。

假设我们有这样一个回归模型,

\[h(x) = {h_\theta }(x) = {\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2} + …\]或者向量形式为:\[[……]

Read more

逻辑回归应用之Kaggle泰坦尼克之灾

1.引言

先说一句,年末双十一什么的一来,真是非(mang)常(cheng)欢(gou)乐(le)!然后push自己抽出时间来写这篇blog的原因也非常简单:

  • 写完前两篇逻辑回归的介绍和各个角度理解之后,小伙伴们纷纷表示『好像很高级的样纸,but**_然并卵_**啊!你们倒是拿点实际数据来给我们看看,这玩意儿 有!什!么!用!啊!』
  • talk is cheap, show me the code!
  • no example say a jb!

OK,OK,这就来了咯,同学们别着急,我们先找个简单的实际例子,来看看,所谓的数据挖掘或者机器学习实际应用到底是怎么样一个过程。[……]

Read more

T检验、F检验和统计学意义(P值或sig值)

1、T检验和F检验的由来

一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。

通过把所得到的统计检定值,与统计学家建立的一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在X%的机会下会得到目前的结果。倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很 少、很罕有的情况下才出现;那我们便可以有信心的说,这不是巧合,是具有统计学上的意义的(用统计学的话讲,就是能够拒绝虚无假设null hypothesis,Ho)。相反,若比较后发现,出现的机率很高,并不罕见;[……]

Read more

使用R制作六边形(苯环)地图

Hexamaps are gaining in popularity. Most notably has been the versions, where the map of the USA has been made into a hexamap.

The idea is that one unit is one hexagon. So in case of the US, each state is one hexagon. In the case of Europe, each country is a hexagon.

This means that all units (sta[……]

Read more

Python解偏微分方程

In the world of scientific computing, the two major languages are of course C and FORTRAN. Both of these are compiled, low level and high performance languages. Generally, one rarely considers an executed language for scientific grunt-work since interpreted languages tend to be drastically slower. I[……]

Read more

Kaggle文本挖掘竞赛: What’s Cooking ?

Introduction

Tutorial on Text Mining, XGBoost and Ensemble Modeling in R

I came across What’s Cooking competition on Kaggle last week. At first, I was intrigued by its name. I checked it and realized that this competition is about to finish. My bad! It was a text mining competition.  This competit[……]

Read more