長年にわたるPythonで陥った落とし穴~不要な文字の消去について
2022-02-09 01:07:57
原因は、sparkで実行するとこのエラーが発生したことです。
ipythonを開いてpandasで確認すると、最後の数エントリは次のようになっていました。
In [1]: import pandas as pd
In [2]: df = pd.read_csv("name_address.csv",sep=',',encoding='utf8')
3] では、df.keys() です。
アウト[3]。インデックス([u'name', u'address'], dtype='object')
4]では、df['address']です。
アウト[4]。
中国珠海市斗門区龍山工業区黄楊大道2004号0室
杭州市西湖区黄果山路29号怡高ベンチャーパーク1棟
2 中国北京市経済技術開発区科創14街99号33棟D棟2階D203室
3 北京市東城区恭源西街6号E棟10階1007室
4 北京市海淀区中関村東路84-7号
5 北京市東城区信義路南大街A6棟410室
北京市海淀区威公村区13号2棟6門
7 北京市朝陽区北園路168号1棟9階909室
北京市海淀区天水路10号中国農業大学国際創業園1棟B632室8名
北京市昌平区政法大学東部宋園区9番地
10 北京市朝陽区小雲路21号1棟3階(舞洲インキュベーター0650号)
北京市海淀区観音沢5号1棟7階701-031号
北京市海淀区華園北路14号複合ビル2階東方事務室12室
北京市海淀区藍工場金源時代購物中心B棟2階1707室
北京市海淀区馬甸東路19号9階1021号14室
北京市石景山区谷口北路15号A3室
16 中国北京市経済技術開発区京海2路29号7棟202-6号
17 北京市美雲県西涌庄鎮環湖路66号鎮公所1棟110号室
18 北京市朝陽区小紅門郷四環南路城西路308号城西商務ビル4階2071号
19 北京市朝陽区関庄郷1号1棟2階2088号
北京市昌平区東暁口鎮天通東園一号33棟2階8号室205号
北京市美雲県古北口鎮国行路外街11号鎮政府事務室212室
22 北京市朝陽区王京西路A50号1棟7階(新奇廠インキュベータ203号室)
23 中国北京市経済技術開発区西文化園路8号24棟11階1202室
北京市朝陽区小紅門郷四環南路城西路308号城西成都商務大厦4階24号1198室
北京市順義区南阜新鎮金関北二路2号1棟636号25室
26 北京市平区鎮羅營鎮鎮羅營東街5號
北京市平区鎮羅營鎮鎮羅營東街5号27號
北京市朝陽区小紅門郷四環南路城西路308号城西成都商務大厦4階1393号28室
北京市豊台区南四環西路188号15区5棟29号603室
...
5747765 CQkJICAgCQkJCQkJCQkgICAJCQnljZflroHluILpgp...
5747766 CQkJICAgCQkJCQkICAJCQnljqbpl6jluILpm4...。
5747767 5Y2X5a6B5biC5YW05a6B5Yy65LiK5rW36LevOOWPt+ebm+...
5747768 5Y2X5a6B5biC5YW05a6B5Yy65Lic5bee6LevMuWPt+S4re...
5747769 5Y2X5a6B5biC6Z2S56eA5Yy66YeR5rmW6LevMjjlj7flko...
5747770 5Y2X5a6B5biC5YW05a6B5Yy65pyb5bee5Y2X6LevMTg45Y...
5747771 5Y2X5a6B5biC5YW05a6B5Yy66ZW/5YW06LevMTDlj7flkI...
5747772 5Y2X5a6B5biC5Lq65rCR5Lic6Lev77yS77yR77yQ5Y+356...
5747773 5Y2X5a6B5biC5pyd6Ziz6LevNDnlj7c=
5747774 5Y2X5a6B5biC6Z2S56eA5Yy65ruo5rmW6Lev77yR5Y+35Y...
5747775 5Zub5bed55yB6LWE6Ziz5biC5LmQ6Iez5Y6/5a2U6ZuA5L...
5747776 6LS15bee55yB6LS16Ziz5biC5Y2X5piO5Yy66b6Z5rSe5a...
5747777 5q2m5rGJ5biC5rGf5bK45Yy65LqM5LiD6Lev5Lic56uL5Z...
5747778 5Y2X5a6B5biC54Gr54Ks5LiA5pSv6LevMTDlj7fpk7bovr...
5747779 5Y2X5a6B5biC6Z2S56eA5Yy65paw5rCR6Lev77yR77yN77...
5747780 5Y2X5a6B5biC6Z2S56eA5Yy65qGC6ZuF6LevMTblj7fkuJ...
5747781 5Y2X5a6B5biC6auY5paw5Yy66auY5paw5LiD6LevMuWPt+...
5747782 5Y6m6Zeo5biC5rmW6YeM5Yy65Y2O6I2j6LevMTk45Y+35L...
5747783 6KGi5bee5biC5p+v5Z+O5Yy65paw5paw6KGX6YGT56ul5p...
5747784 5Y2X5a6B5biC57uP5byA5Yy66YeR5Yev6LevOTjlj7c=
5747785 CQkJICAgCQkJCQkJCQkgICAJCQnlsbHkuJznnIHmtY...
5747786 5YyX5Lqs5biC5Liw5Y+w5Yy66YCg55Sy6KGXMTEw5Y+3Mu...
5747787 6LS15riv5biC6I235Z+O6LevMTEwMuWPt+mYs+WFiemDve...
5747788 5Y2X5a6B5biC6Z2S56eA5Yy66Z2S5bGx6LevMTDlj7fmvr...
5747789 5Y2X5a6B5biC5aSn5a2m5Lic6LevMTc05Y+35bm/6KW/5Y...
5747790 5Y2X5a6B5biC5Y2O5L6o5oqV6LWE5Yy65q2m5L6o5aSn6Y...
5747791 5YyX5Lqs5biC5rW35reA5Yy65b+X5paw5Lic6LevOOWPt+...
5747792 5rex5Zyz5biC56aP55Sw5Yy65Y2O5by65YyX6KGX6YGT5o...
5747793 CQkJICAgCQkJCQkJCQkgICAJCQnljZflroHluILopb...
5747794 山東省德州市玉城ハイテク開発区東街道南延長部
名前:住所、長さ:5747795、dtype:オブジェクト
この後に続くアドレスはすべて英字で、","で区切ることはできません。
7]: def is_alpabet(uchar)で。
... : uchar = uchar.decode('utf8')
... : if (uchar >=u'\u0041' and uchar <=u'\u005a') or (uchar >=u'\u0061' and uchar<=u'\u007a'):
... : 真を返す
... : その他
... : 誤
... :
アルファベットを区別するための関数を定義する
11]: def is_alpabet(uchar):
... : if type(uchar) ! = type(u'u0041'):
... : uchar = uchar.decode('utf8')
... : if (uchar >=u'\u0041' and uchar <=u'\u005a') or (uchar >=u'\u0061' and uchar<=u'\u007a'):
... : 真を返す
... : その他
... : 誤
... :
In [12]: f = lambda x: is_alpabet(x)
In [13]: df['address'].apply(f)
アウト [13]:
0 なし
1 なし
2 なし
3 なし
4 なし
5 なし
6 なし
7 なし
8 なし
9 なし
10 なし
11 なし
12 なし
13 なし
14 なし
15 なし
16 なし
17 なし
18 なし
19 なし
20 なし
21 なし
22 なし
23 なし
24 なし
25 なし
26 なし
27 なし
28 なし
29 なし
...
5747765 真
5747766 真
5747767 なし
5747768 なし
5747769 なし
5747770 なし
5747771 なし
5747772 なし
5747773 なし
5747774 なし
5747775 なし
5747776 なし
5747777 なし
5747778 なし
5747779 なし
5747780 なし
5747781 なし
5747782 なし
5747783 なし
5747784 なし
5747785 真
5747786 なし
5747787 なし
5747788 なし
5747789 なし
5747790 なし
5747791 なし
5747792 なし
5747793 真
5747794 なし
名前: address, 長さ: 5747795, dtype: object
applyでラムダ関数を渡しても効果がないようです
In [16]: for i in df['address']:
... : is_alpabet(i)がTrueの場合。
... : iを表示する
... :
ヌル
ヌル
a
ヌル
ヌル
彰義市六通鎮長虎通村G棟
杭州
MATTHIAS
ヌル
ヌル
ヌル
関連
-
[解決済み】TypeError: エンコードされていない文字列引数
-
[解決済み】LockとRLockの違いは何ですか?
-
[解決済み】Python HTTP Server/Client: リモートエンドが応答なしで接続を閉じたエラー
-
[解決済み】OperationalError: データベースがロックされています。
-
[解決済み] ImportError: encodings'という名前のモジュールがありません。
-
[解決済み] アサーション失敗:imshow関数内でsize.width>0 && size.height>0
-
[解決済み] S3からspark dataframe Pythonにparquetデータを読み込むには?
-
[解決済み] PythonによるFama Macbeth回帰 (PandasまたはStatsmodels)
-
[解決済み] Django - render(), render_to_response() と direct_to_template() の違いは何ですか?
-
[解決済み] BeautifulSoupという名前のモジュールがない(しかし、インストールされているはず) [重複] 。
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み】boto3クライアント NoRegionError。リージョンエラーの時だけ指定する必要があります
-
[解決済み】TypeError: 'int' 型のオブジェクトは len() を持たない - Python/Pygame
-
[解決済み】2D numpy配列のしきい値
-
[解決済み】予期しないキーワード引数TypeErrorが発生するのはなぜですか?
-
pygame.error。Unable to open file 'audio/gege.wav' 报错_qq_45209973的博客-程式员秘密
-
[解決済み] TypeError: シーケンスアイテム 0: 予想される文字列、int が見つかりました。
-
[解決済み] エラーです。ステートメントが期待されますが、pyが見つかりました。Dedent
-
[解決済み] TypeError: 'tuple' オブジェクトは整数値として解釈できません。
-
python TypeError: + のオペランド型が未サポート: 'int' と 'str' です。
-
100万語のテキストから100ミリ秒のフィルタリングで無効化された単語を検出