Пример нахождения 2 найоболе похожих текстовых строк в тексе

python > Пример нахождения 2 найоболе похожих текстовых строк в тексе
05.04.2020 15:20:00


Наиболее часто встречающиеся слова в статье:

[vectors] [file_obj] [CountVectorizer] [distance] [считаем] [sklearn] [feature_extraction] [fit_transform] [spatial] [dis=distance]


Статья:

import re
import numpy as np
#считаем с файла
file_obj = open('2.txt')
 
corpus = list()
for line in file_obj:
    x1= (line.strip().lower())
    corpus.append(x1)
 
from sklearn.feature_extraction.text import CountVectorizer
model = CountVectorizer()
vectors = model.fit_transform(corpus)
 
import numpy as np
from scipy.spatial import distance
# dis=distance.cosine(z1, z2)
vectors = vectors.toarray()
dicter = {}
for i in range(len(vectors)):
    dicter[i] = distance.cosine(vectors[0], vectors[i])
 
dicter = list(dicter.items())
dicter.sort(key=lambda i: i[1])
 
dicter