推荐一本入门书籍:统计自然语言处理基础 看完之后,你会发现原来需要很多 机器学习以及统计的知识。 推荐另外一本书:统计学习方法
vocabulary1是一个类似内置类型dict字典的东西,字典强调键-值对,没有排列顺序。
u表示字符使用unicode编码,貌似2.7.8才专门加的,目的是向python3过度吧
你将nltk_data里面的zip包全解压出来试试,或者你看错误提示里这句
text1 = Text(gutenberg.words('melville-moby_dick.txt'))
里说gutenberg,你就将这个解压,将idle restart一下,再from nltk.book import *,然后这句错误提示里就会变成别的包,然后重复这个操作。