1. ホーム
  2. python

XMLパース - ElementTreeとSAX、DOMの比較

2023-07-19 15:21:14

質問

PythonはXMLをパースするためのいくつかの方法を持っています...

でのパースの基本は理解しています。 SAX . これは、イベント駆動型 API を持つストリーム パーサーとして機能します。

を理解しました。 DOM パーサーもあります。 XMLをメモリに読み込んで、Pythonでアクセスできるオブジェクトに変換しています。

一般的に言って、何をする必要があるか、メモリの制約、パフォーマンスなどによって、2つのうちどちらかを選ぶのは簡単でした。

(ここまでが正しいといいのですが)

Python 2.5以降、私たちはまた エレメントツリー . これは DOM や SAX と比べてどうなのでしょうか?より似ているのはどちらですか?なぜ以前のパーサーより優れているのですか?

どのように解決するのですか?

ElementTreeは、XMLツリーを(基本的に)リストの構造として表現し、属性は辞書として表現されるので、より使いやすくなっています。

ElementTree は DOM よりもはるかに少ないメモリで XML ツリーを表現でき (その結果、より高速に)、また iterparse を使ったパースのオーバーヘッドは SAX と同等です。さらに iterparse は部分的な構造を返すので、構造を処理したらすぐに破棄することで、パース中のメモリ使用量を一定に保つことができます。

Python 2.5のElementTreeは、本格的なXMLライブラリと比較すると小さな機能セットしかありませんが、多くのアプリケーションでは十分でしょう。もし、検証パーサーや完全なXPathサポートが必要であれば、lxmlを使うのがよいでしょう。長い間、かなり不安定でしたが、2.1 からは何の問題もありません。

ElementTree は、ノードがその親と兄弟にアクセスできる DOM から逸脱しています。データストアではなく実際のドキュメントを扱うことは、テキストノードが実際のノードとして扱われないため、少々面倒でもあります。XML のスニペットでは

<a>This is <b>a</b> test</a>

文字列 test は、いわゆる tail 要素の b .

一般的には、PythonによるすべてのXML処理のデフォルトとしてElementTreeを、特定の問題に対する解決法としてDOMまたはSAXを推奨します。