深入理解pandas读取excel,txt,csv文件等命令 (5)

日期：2021-04-29 栏目：程序人生浏览：次

若JSON文件中有中文，建议加上encoding参数，赋值'utf-8'，否则会报错

read_html 函数参数中文释义
io 接收网址、文件、字符串。网址不接受https，尝试去掉s后爬去
match 正则表达式，返回与正则表达式匹配的表格
flavor 解析器默认为‘lxml’
header 指定列标题所在的行，list为多重索引
index_col 指定行标题对应的列，list为多重索引
skiprows 跳过第n行（序列标示）或跳过n行（整数标示）
attrs 属性，比如 attrs = {'id': 'table'}
parse_dates 解析日期

使用方法，在网页中右键如果发现表格也就是 table 即可使用

例如：

<table> <thead> <tr> <th>...</th> </tr> </thead> <tbody> <tr> <td>...</td> </tr> <tr>...</tr> </tbody> </table> <table> : 定义表格 <thead> : 定义表格的页眉 <tbody> : 定义表格的主体 <tr> : 定义表格的行 <th> : 定义表格的表头 <td> : 定义表格单元常见BUG

出现如下报错 ImportError: html5lib not found, please install it

安装html5lib即可，或者使用参数

import pandas as pd df = pd.read_html("http://data.stcn.com/2019/0304/14899644.shtml",flavor ='lxml')

更多参考源码，可以参考 >

尾声

截止到现在，本篇博客已经完成，对于pandas读取文件，相信你应该已经有一个深入的理解了。在pandas读取文件的过程中，最常出现的问题，就是中文问题与格式问题，希望当你碰到的时候，可以完美的解决。

有任何问题，希望可以在评论区给我回复，期待和你一起进步，博客园-梦想橡皮擦

转载注明出处：https://www.heiqu.com/wsfjgy.html

深入理解pandas读取excel,txt,csv文件等命令 (5)

相关推荐