最近お仕事でApache Arrow形式を扱うことが多くなってきたので、手元のmacOSでも覗けるようにしようと思いました。 PyArrowを使えば楽勝っぽかったので、こんな感じのコードを使って確認することにしました。
macOSでは
macOSには何らかの方法でPython 3とpython3 -m pip install pyarrow
などでPyArrowモジュールのインストールが必要です。
pyarrowモジュール はPython3.7以降に対応しているようです。Python3.7だと流石に古いと思うので、普段使いのRHEL 8.6でも楽にインストールできるPython 3.9に合わせるため、macOSもPython3.9を導入しました(→macOSへのPython3のインストール方法)。
こんなコードを用意して...
#!/usr/bin/env python3 import sys import pyarrow.feather as feather read_arrow = feather.read_table(sys.argv[1]) print(read_arrow)
実行してみます。型とデータが確認できました。
% python3 /usr/local/bin/showarrow.py testdata-csv.arrow pyarrow.Table name: string age: int64 likefood: string ---- name: [["Bob","Ted","Mika"]] age: [[15,16,14]] likefood: [["Sushi","Sukiyaki","Riceball"]]
RHEL8
RHEL8の場合は標準でPython3.6が入っているもののPython 3.6ではPyArrowはインストールできなかったので、Python3.9を追加して同じように動かしました。
$ sudo dnf install python39 python39-pip $ python3.9 -m pip install pyarrow
python3.9
に書き換えてから実行すると同じように動きます。
#!/usr/bin/env python3.9 import sys import pyarrow.feather as feather read_arrow = feather.read_table(sys.argv[1]) print(read_arrow)