r语言怎么抓取网页数据

2025-04-19 19:51:39

推荐回答（2个）

回答1：

如果用Python或者C#可能更容易。但是R本身也有很强的处理功能。
用regular expression. 将html的source打开，比如可以将其按照txt的格式打开。里面的编码都是有规律的，接下来用regular experssion打开。比较常用的函数gsub, strsplit， grep等，可以看帮助文件。
R可以在网页上抓取数据，一种途径是使用函数readlines()下载网页，然后使用如grep()和gsub()一类的函数处理，对于结构复杂的网页，可以使用RCurl和XML包来提取其中想要的信息。
更多信息和示例，参考在Programming with R上找到的“Webscraping Using ReadLines and Rcurl”一文；

回答2：

　　如果用Python或者C#可能更容易。但是R本身也有很强的处理功能。
　　用regular expression. 将html的source打开，比如可以将其按照txt的格式打开。里面的编码都是有规律的，接下来用regular experssion打开。比较常用的函数有gsub, strsplit， grep等，lz可以自己看帮助文件。