1. ホーム
  2. python

[解決済み] Pythonで文のリストに含まれる単語のBigramsを形成する

2022-02-28 07:33:39

質問

文のリストがあります。

text = ['cant railway station','citadel hotel',' police stn']. 

ビッグラムのペアを形成して変数に格納する必要があります。問題は、そうすると、単語の代わりに文のペアができてしまうことです。以下は私がやったことです。

text2 = [[word for word in line.split()] for line in text]
bigrams = nltk.bigrams(text2)
print(bigrams)

となり、その結果

[(['cant', 'railway', 'station'], ['citadel', 'hotel']), (['citadel', 'hotel'], ['police', 'stn'])

鉄道駅と城塞ホテルは1つのビッグラムにならないのですか?私が欲しいのは

[([cant],[railway]),([railway],[station]),([citadel,hotel]), and so on...

最初の文の最後の単語は、2番目の文の最初の単語と結合してはいけません。 どうすればうまくいくでしょうか?

どのように解決するのですか?

使用方法 リスト内包 ジッパー :

>>> text = ["this is a sentence", "so is this one"]
>>> bigrams = [b for l in text for b in zip(l.split(" ")[:-1], l.split(" ")[1:])]
>>> print(bigrams)
[('this', 'is'), ('is', 'a'), ('a', 'sentence'), ('so', 'is'), ('is', 'this'), ('this',     
'one')]