[解決済み] Pythonの文字列は[u'String]と表示されます。
2022-03-03 23:21:54
質問
これはきっと簡単なことなんだろうけど、本当に困っているんだ。
ウェブページを読み込むスクリプトがあるのですが、そのスクリプトは 美しいスープ を使用して解析します。からは スープ 最終的な目的はlink.contentsを出力することなので、すべてのリンクを抽出します。
私がパースしているテキストはすべてASCIIです。Pythonが文字列をユニコードとして扱うことは知っていますし、これは非常に便利だと思いますが、私の小さなスクリプトでは役に立ちません。
String'を保持する変数を出力しようとするたびに、次のようなメッセージが表示されます。
[u'String']
が画面に出力されます。これをただのアスキーに戻す簡単な方法はありますか、それとも正規表現を書いて取り除くべきですか?
どのように解決するのですか?
[u'ABC']
は、ユニコード文字列の1要素リストとなります。
Beautiful Soupは常にUnicodeを生成する
. ですから、リストを1つのユニコード文字列に変換し、それをASCIIに変換する必要があります。
コンテンツ・メンバーは文字列とタグのリストですが、どうやらあなたが持っているものとは違うようです。本当に常に1つの要素を持つリストが得られると仮定して、あなたのテストが本当に だけ ASCIIの場合は、こうなります。
soup[0].encode("ascii")
ただし、データが本当にASCIIであるかは再確認してください。これはかなり稀なことです。latin-1かutf-8である可能性が高いです。
soup[0].encode("latin-1")
soup[0].encode("utf-8")
あるいは、Beautiful Soupに元のエンコーディングが何だったか聞いて、このエンコーディングで返してもらう。
soup[0].encode(soup.originalEncoding)
関連
-
[解決済み】RuntimeWarning: invalid value encountered in double_scalars で numpy の除算ができない。
-
[解決済み] Pythonには文字列の'contains'サブストリングメソッドがありますか?
-
[解決済み] Pythonで現在時刻を取得する方法
-
[解決済み] Pythonで2つのリストを連結する方法は?
-
[解決済み] バイトを文字列に変換する
-
[解決済み] Pythonで文字列の部分文字列を取得するにはどうすればよいですか?
-
[解決済み] Pythonで文字列を小文字にするには?
-
[解決済み】ネストされたディレクトリを安全に作成するには?
-
[解決済み】文字列をdatetimeに変換する
-
[解決済み】Pythonに三項条件演算子はありますか?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
Pythonコンテナのための組み込み汎用関数操作
-
Python関数の高度な応用を解説
-
Pythonの学習とデータマイニングのために知っておくべきターミナルコマンドのトップ10
-
Pythonを使って簡単なzipファイルの解凍パスワードを手作業で解く
-
[解決済み】RuntimeWarning: 割り算で無効な値が発生しました。
-
[解決済み】pygame.error: ビデオシステムが初期化されていない
-
[解決済み】syntaxError: 'continue' がループ内で適切に使用されていない
-
[解決済み】NameError: 名前 'self' が定義されていません。
-
[解決済み】Pythonの文字列のu接頭辞は何ですか?
-
[解決済み] 文字列の値の前に付ける「u」記号の意味とは?重複