1. ホーム
  2. python

[解決済み] Python Pandasでファジーマッチ・マージを行うことは可能ですか?

2022-12-26 18:13:52

質問

2つのDataFrameがあり、ある列に基づいてマージしたい。しかし、異なる綴り、異なるスペース数、発音区分符号の有無などの理由により、互いに類似している限りにおいて、マージできるようにしたいと思います。

どんな類似性アルゴリズムでも構いません(soundex、Levenshtein、difflib's)。

1つのDataFrameに以下のデータがあるとします。

df1 = DataFrame([[1],[2],[3],[4],[5]], index=['one','two','three','four','five'], columns=['number'])

       number
one         1
two         2
three       3
four        4
five        5

df2 = DataFrame([['a'],['b'],['c'],['d'],['e']], index=['one','too','three','fours','five'], columns=['letter'])

      letter
one        a
too        b
three      c
fours      d
five       e

次に、結果のDataFrameを取得したい。

       number letter
one         1      a
two         2      b
three       3      c
four        4      d
five        5      e

どのように解決するのですか?

locojay さんの提案と同様に difflib 's get_close_matches から df2 のインデックスに join :

In [23]: import difflib 

In [24]: difflib.get_close_matches
Out[24]: <function difflib.get_close_matches>

In [25]: df2.index = df2.index.map(lambda x: difflib.get_close_matches(x, df1.index)[0])

In [26]: df2
Out[26]: 
      letter
one        a
two        b
three      c
four       d
five       e

In [31]: df1.join(df2)
Out[31]: 
       number letter
one         1      a
two         2      b
three       3      c
four        4      d
five        5      e

.

もしこれらが列であったなら、同じように列に適用することができ、次に merge :

df1 = DataFrame([[1,'one'],[2,'two'],[3,'three'],[4,'four'],[5,'five']], columns=['number', 'name'])
df2 = DataFrame([['a','one'],['b','too'],['c','three'],['d','fours'],['e','five']], columns=['letter', 'name'])

df2['name'] = df2['name'].apply(lambda x: difflib.get_close_matches(x, df1['name'])[0])
df1.merge(df2)