如果用Python或者C#可能更容易。但是R本身也有很强的处理功能。
用regular expression. 将html的source打开,比如可以将其按照txt的格式打开。里面的编码都是有规律的,接下来用regular experssion打开。比较常用的函数gsub, strsplit, grep等,可以看帮助文件。
R可以在网页上抓取数据,一种途径是使用函数readlines()下载网页,然后使用如grep()和gsub()一类的函数处理,对于结构复杂的网页,可以使用RCurl和XML包来提取其中想要的信息。
更多信息和示例,参考在Programming with R上找到的“Webscraping Using ReadLines and Rcurl”一文;
如果用Python或者C#可能更容易。但是R本身也有很强的处理功能。
用regular expression. 将html的source打开,比如可以将其按照txt的格式打开。里面的编码都是有规律的,接下来用regular experssion打开。比较常用的函数有gsub, strsplit, grep等,lz可以自己看帮助文件。