ytooyamaのブログ

サーバ構築とか、仕事で発見したこととか、趣味のこととかを書いています。

PyArrowを使ってArrow形式のファイルを覗く

最近お仕事でApache Arrow形式を扱うことが多くなってきたので、手元のmacOSでも覗けるようにしようと思いました。 PyArrowを使えば楽勝っぽかったので、こんな感じのコードを使って確認することにしました。

macOSでは

macOSには何らかの方法でPython 3とpython3 -m pip install pyarrowなどでPyArrowモジュールのインストールが必要です。

pyarrowモジュール はPython3.7以降に対応しているようです。Python3.7だと流石に古いと思うので、普段使いのRHEL 8.6でも楽にインストールできるPython 3.9に合わせるため、macOSもPython3.9を導入しました(→macOSへのPython3のインストール方法)。

こんなコードを用意して...

#!/usr/bin/env python3
import sys
import pyarrow.feather as feather

read_arrow = feather.read_table(sys.argv[1])
print(read_arrow)

実行してみます。型とデータが確認できました。

% python3 /usr/local/bin/showarrow.py testdata-csv.arrow
pyarrow.Table
name: string
age: int64
likefood: string
----
name: [["Bob","Ted","Mika"]]
age: [[15,16,14]]
likefood: [["Sushi","Sukiyaki","Riceball"]]

RHEL8

RHEL8の場合は標準でPython3.6が入っているもののPython 3.6ではPyArrowはインストールできなかったので、Python3.9を追加して同じように動かしました。

$ sudo dnf install python39 python39-pip
$ python3.9 -m pip install pyarrow

python3.9に書き換えてから実行すると同じように動きます。

#!/usr/bin/env python3.9
import sys
import pyarrow.feather as feather

read_arrow = feather.read_table(sys.argv[1])
print(read_arrow)

このブログサイトはJavaScriptを使っていますが、読み込んでいるJavaScriptは全てはてなが提供しているものであり、筆者が設置しているものではありません。