深入理解pandas读取excel,txt,csv文件等命令 (5)

若JSON文件中有中文,建议加上encoding参数,赋值'utf-8',否则会报错

read_html 函数 参数 中文释义
io   接收网址、文件、字符串。网址不接受https,尝试去掉s后爬去  
match   正则表达式,返回与正则表达式匹配的表格  
flavor   解析器默认为‘lxml’  
header   指定列标题所在的行,list为多重索引  
index_col   指定行标题对应的列,list为多重索引  
skiprows   跳过第n行(序列标示)或跳过n行(整数标示)  
attrs   属性,比如 attrs = {'id': 'table'}  
parse_dates   解析日期  

使用方法,在网页中右键如果发现表格 也就是 table 即可使用

例如:

<table> <thead> <tr> <th>...</th> </tr> </thead> <tbody> <tr> <td>...</td> </tr> <tr>...</tr> </tbody> </table> <table> : 定义表格 <thead> : 定义表格的页眉 <tbody> : 定义表格的主体 <tr> : 定义表格的行 <th> : 定义表格的表头 <td> : 定义表格单元 常见BUG

出现如下报错 ImportError: html5lib not found, please install it

安装html5lib即可,或者使用参数

import pandas as pd df = pd.read_html("http://data.stcn.com/2019/0304/14899644.shtml",flavor ='lxml')

更多参考源码,可以参考 >

尾声

截止到现在,本篇博客已经完成,对于pandas读取文件,相信你应该已经有一个深入的理解了。在pandas读取文件的过程中,最常出现的问题,就是中文问题与格式问题,希望当你碰到的时候,可以完美的解决。

有任何问题,希望可以在评论区给我回复,期待和你一起进步,博客园-梦想橡皮擦

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wsfjgy.html