【Python】DICOMヘッダーをCSVに保存

1. 目的

PythonのPydicomライブラリを用いて、DICOMヘッダーをCSVにまとめて保存

2. 準備

2.1. ライブラリの準備

Pydicomは、DICOMのヘッダーや画像を操作するのに用いるライブラリである。

Pydicomのインストールは、以下のコマンドを実行。

1	`pip3` `install` `pydicom`

CSV形式の表データを扱うには、Pandasライブラリを用いる。

Pandasライブラリのインストールは、以下のコマンドを実行。

1	`pip3` `install` `pandas`

2.2. データの準備

次のような、フォルダ構造でデータを準備する。この場合では、各被験者フォルダの中にDICOMが保存されている。

DICOM_folder
├── Subject001
│   ├── XXX.dcm
│   ├── ...
│   └── XXX.dcm
├── Subject002
│   ├── XXX.dcm
│   ├── ...
│   └── XXX.dcm
├── ...
└── SubjectXXX

2.3. スクリプトの準備

次のコードを、extract_dcm_header.pyとして保存する。このとき、スクリプトはDICOM_folderフォルダと同じ階層に保存する。

import os
import pydicom
import pandas as pd
 
input='DICOM_folder'  # Input folder
output='dicom_headers.csv'  # Output CSV
 
dcm_dfs = []
failed_files = []
processed_files = []
for root, _, files in os.walk(input):  # Find DICOM file for each subject
    if len(files) != 0:  # If DICOM files exist
        try:
            f = os.path.join(root, files[0])
            dcm = pydicom.dcmread(f)  # Read DICOM
            _df = pd.DataFrame({dcm[k].keyword: [dcm[k].value] for k in dcm.keys() if dcm[k].keyword != "PixelData"})  # Read Headers
            dcm_dfs.append(_df)  # Gather headers of all subjects in a list
            processed_files.append(f)
        except:
            failed_files.append(f)
 
dcm_dfs = pd.concat(dcm_dfs, ignore_index=True)  # Concat headers of all subjects in a table
dcm_dfs.to_csv(output, index=False)  # Save as CSV

3. プログラムの実行

2.3. スクリプトの準備で用意した、extract_dcm_header.pyを実行するには、次のコマンドを実行する。

1	`python3 ./extract_dcm_header.py`

4. 結果の確認

収集したDICOMヘッダーは、dicom_headers.csvとして保存される。

5. コードの解説

まず、必要なライブラリを読み込む。

import os
import pydicom
import pandas as pd

ここでは、入力となるDICOMフォルダーと出力となるDICOMヘッダーのまとまったCSVの名前を定義している。

今回の場合だとinput='DICOM_folder'、output='dicom_headers.csv'。

input='DICOM_folder'  # Input folder
output='dicom_headers.csv'  # Output CSV

データを格納するための、箱（リスト）を定義。

dcm_dfs = []
failed_files = []
processed_files = []

被験者ごとのDICOMファイルを検索。

1	`for` `root, _, files` `in` `os.walk(input):` `# Find DICOM file for each subject`

DICOMファイルがある場合のみ、処理を実行。

1	`if` `len(files) !=` `0:` `# If DICOM files exist`

Pydicomを用いて、DICOMデータを読み込む。

try:
    f = os.path.join(root, files[0])
    dcm = pydicom.dcmread(f)  # Read DICOM

DICOMからヘッダー（Header）情報を、Pandasで読み込む。

PixelDataタグを含めると、出力（CSV）が崩れておかしくなるので、収集に含めないようにしている。

_df = pd.DataFrame({dcm[k].keyword: [dcm[k].value] for k in dcm.keys() if dcm[k].keyword != "PixelData"})  # Read Headers

収集した結果を、被験者ごとに処理をして、一つの箱（リスト）にまとめる。

    dcm_dfs.append(_df)  # Gather headers of all subjects in a list
    processed_files.append(f)
except:
    failed_files.append(f)

すべての被験者のヘッダー情報を、一つの表形式のデータ（DataFrame型）に変換する。

dcm_dfs = pd.concat(dcm_dfs, ignore_index=True)  # Concat headers of all subjects in a table

結果を、CSVとして保存する。

1	`dcm_dfs.to_csv(output, index=False)` `# Save as CSV`

著者情報：斎藤勇哉

順天堂大学医学部大学院医学研究科放射線診断学講座所属
脳MRI 画像解析が専門であり、テーマは①神経変性疾患の機序解明、②医用人工知能の開発、③多施設データのハーモナイゼーション、④速読が脳に与える影響や学習効果、⑤SNS解析を用いたマーケティング戦略の改善。
医療分野に関わらず、自然言語処理・スクレイピング・データ分析・Web アプリ開発を得意とし、企業や他大学の研究を支援。
主な使用言語は、Python、Shell Script、MATLAB、HTML、CSS

月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31