这一节想总结一下 生成 Dataframe 的几种方式:
CSV
Excel
python dictionary
List of tuples
List of dictionary
下面分别一一介绍具体的实现方式:
通过 csv 文件
这里补充一个知识点, 就是如果要读取的文件不在 jupyter 所在的文件夹, 则可以通过绝对路径的方式引入.
通过 Excel 文件
这里的第二个参数是必填项, 因为要指明具体读取 excel 表中的哪个 sheet.
还有一个小坑, 就是在初次运行的时候有可能会提示错误, 根据错误提示, 大概可以了解到, 要读取 excel 文件, 还需要一个 xlrd 的包, 在终端运行下面命令就好了
pip3 install xlrd通过 python dictionary (为了方便大家日后可以更好地理解英文文档, 这里的一些专业名词, 我就都不翻译了)
weather_data = { 'day': ['1/1/2017','1/2/2017','1/3/2017'], 'temperature': [32,35,28], 'windspeed': [6,7,2], 'event': ['Rain', 'Sunny', 'Snow'] } df = pd.DataFrame(weather_data)通过 List of tuples
weather_data = [ ('1/1/2017',32,6,'Rain'), ('1/2/2017',35,7,'Sunny'), ('1/3/2017',28,2,'Snow') ] df = pd.DataFrame(data=weather_data, columns=['day','temperature','windspeed','event'])上面例子中, weather_data 的数据结构是一个 list(特点是中括号), list 中的每一个元素就是一个 tuple, 由于原数据没有指明列名, 所以在创建 dataframe 的时候, 需要指明列名.
通过 List of dictionary, 从名字就可以读出来下面的数据结构是一个 list, list 中的每个元素又是一个 dictionary.
weather_data = [ {'day': '1/1/2017', 'temperature': 32, 'windspeed': 6, 'event': 'Rain'}, {'day': '1/2/2017', 'temperature': 35, 'windspeed': 7, 'event': 'Sunny'}, {'day': '1/3/2017', 'temperature': 28, 'windspeed': 2, 'event': 'Snow'}, ] df = pd.DataFrame(data=weather_data, columns=['day','temperature','windspeed','event'])上面简要介绍了 5 中生成 dataframe 的方式, 其实 Pandas 还支持很多种文件格式的输入输出, 具体可以参考下官方文档 https://pandas.pydata.org/pandas-docs/version/0.22/io.html