1. ホーム
  2. python

[解決済み] 文章を分割する方法を教えてください。

2022-05-08 11:23:47

質問

テキストファイルがあります。文のリストを取得したいのですが。

これはどのように実装すればよいのでしょうか。略語にドットが使われるなど、微妙なところが多いのですが。

以前使っていた正規表現の動作が悪い。

re.compile('(\. |^|!|\?)([A-Z][^;↑\.<>@\^&/\[\]]*(\.|!|\?) )',re.M)

解決方法は?

自然言語ツールキット( nltk.org ) に必要なものがあります。 このグループ投稿 は、これがそうであることを示す。

import nltk.data

tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
fp = open("test.txt")
data = fp.read()
print '\n-----\n'.join(tokenizer.tokenize(data))

(試してません!)