一、背景
最近项目上数据导入redshift是从s3,并且s3上文件格式为parquet。经常会出现的问题是,源数据库对表结构进行了修改之后又未及时告知我们,导致s3->redshift报错,故可能有需求下载文件看一下parquet文件来确认表结构(源数据库不允许直连),很是无语
二、操作
1、下载python3编译器
2、安装parquet-tools 库
pip install parquet-tools
3、打开命令行终端,输入命令
parquet-tools show [parquet文件绝对路径]
一、背景
最近项目上数据导入redshift是从s3,并且s3上文件格式为parquet。经常会出现的问题是,源数据库对表结构进行了修改之后又未及时告知我们,导致s3->redshift报错,故可能有需求下载文件看一下parquet文件来确认表结构(源数据库不允许直连),很是无语
二、操作
1、下载python3编译器
2、安装parquet-tools 库
pip install parquet-tools
3、打开命令行终端,输入命令
parquet-tools show [parquet文件绝对路径]