XMLパース - ElementTreeとSAX、DOMの比較
質問
PythonはXMLをパースするためのいくつかの方法を持っています...
でのパースの基本は理解しています。 SAX . これは、イベント駆動型 API を持つストリーム パーサーとして機能します。
を理解しました。 DOM パーサーもあります。 XMLをメモリに読み込んで、Pythonでアクセスできるオブジェクトに変換しています。
一般的に言って、何をする必要があるか、メモリの制約、パフォーマンスなどによって、2つのうちどちらかを選ぶのは簡単でした。
(ここまでが正しいといいのですが)
Python 2.5以降、私たちはまた エレメントツリー . これは DOM や SAX と比べてどうなのでしょうか?より似ているのはどちらですか?なぜ以前のパーサーより優れているのですか?
どのように解決するのですか?
ElementTreeは、XMLツリーを(基本的に)リストの構造として表現し、属性は辞書として表現されるので、より使いやすくなっています。
ElementTree は DOM よりもはるかに少ないメモリで XML ツリーを表現でき (その結果、より高速に)、また
iterparse
を使ったパースのオーバーヘッドは SAX と同等です。さらに
iterparse
は部分的な構造を返すので、構造を処理したらすぐに破棄することで、パース中のメモリ使用量を一定に保つことができます。
Python 2.5のElementTreeは、本格的なXMLライブラリと比較すると小さな機能セットしかありませんが、多くのアプリケーションでは十分でしょう。もし、検証パーサーや完全なXPathサポートが必要であれば、lxmlを使うのがよいでしょう。長い間、かなり不安定でしたが、2.1 からは何の問題もありません。
ElementTree は、ノードがその親と兄弟にアクセスできる DOM から逸脱しています。データストアではなく実際のドキュメントを扱うことは、テキストノードが実際のノードとして扱われないため、少々面倒でもあります。XML のスニペットでは
<a>This is <b>a</b> test</a>
文字列
test
は、いわゆる
tail
要素の
b
.
一般的には、PythonによるすべてのXML処理のデフォルトとしてElementTreeを、特定の問題に対する解決法としてDOMまたはSAXを推奨します。
関連
-
[解決済み] 関数デコレータを作成し、それらを連鎖させるには?
-
[解決済み] staticmethodとclassmethodの違いについて
-
[解決済み] 最小限の驚き」と「変更可能なデフォルトの引数
-
[解決済み] PHPでHTML/XMLをパースして処理する方法とは?
-
[解決済み] どのDOM要素にフォーカスがあるかを調べるには?
-
[解決済み] JavaScript で DOM ノードのすべての子要素を削除する
-
[解決済み] XMLを解析して、特定のノード属性のインスタンスをカウントするには?
-
[解決済み】__str__と__repr__の違いは何ですか?
-
[解決済み] なぜ(0-6)は-6=偽なのか?重複
-
[解決済み] StAXではなくSAXを選択すべきなのはどのような場合か?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み] Pythonのtry-else
-
[解決済み] 2つの線分が交差しているかどうかを確認するにはどうすればよいですか?
-
[解決済み] SQLAlchemy: セッションの作成と再利用
-
[解決済み] Djangoで2つの日付の間を選択する
-
[解決済み] DataFrameに日付間の日数カラムを追加する pandas
-
[解決済み] Django Rest Framework ファイルアップロード
-
[解決済み] PythonからSMTPを使用してメールを送信する
-
[解決済み] Pandasを使って、既存のExcelファイルに新しいシートを保存する方法は?
-
[解決済み] Pythonの辞書にあるスレッドセーフについて
-
[解決済み] pipの依存性/必要条件をリストアップする方法はありますか?