若JSON文件中有中文,建议加上encoding参数,赋值'utf-8',否则会报错
read_html 函数 参数 中文释义io 接收网址、文件、字符串。网址不接受https,尝试去掉s后爬去
match 正则表达式,返回与正则表达式匹配的表格
flavor 解析器默认为‘lxml’
header 指定列标题所在的行,list为多重索引
index_col 指定行标题对应的列,list为多重索引
skiprows 跳过第n行(序列标示)或跳过n行(整数标示)
attrs 属性,比如 attrs = {'id': 'table'}
parse_dates 解析日期
使用方法,在网页中右键如果发现表格 也就是 table 即可使用
例如:
<table> <thead> <tr> <th>...</th> </tr> </thead> <tbody> <tr> <td>...</td> </tr> <tr>...</tr> </tbody> </table> <table> : 定义表格 <thead> : 定义表格的页眉 <tbody> : 定义表格的主体 <tr> : 定义表格的行 <th> : 定义表格的表头 <td> : 定义表格单元 常见BUG出现如下报错 ImportError: html5lib not found, please install it
安装html5lib即可,或者使用参数
import pandas as pd df = pd.read_html("http://data.stcn.com/2019/0304/14899644.shtml",flavor ='lxml')更多参考源码,可以参考 >
尾声截止到现在,本篇博客已经完成,对于pandas读取文件,相信你应该已经有一个深入的理解了。在pandas读取文件的过程中,最常出现的问题,就是中文问题与格式问题,希望当你碰到的时候,可以完美的解决。
有任何问题,希望可以在评论区给我回复,期待和你一起进步,博客园-梦想橡皮擦