Usuario:Ignacio Rodríguez/histograma

import pywikibot, string

## extraer texto, quitar puntuación, separar por palabras,  histograma

f = open('CORPUS', 'r', encoding='utf8')

txt = f.read()
words = [x.translate(str.maketrans('ſ', 's', '"#$%\'()*+,-./:;<=>?@[\\]^_`{|}~')) for x in txt.split()] ## traducir ſ por s, mantener &, eliminar el resto de puntuación.
histogram = {}

for word in words:
	histogram[word] = histogram.get(word,0)+1

sorthist = sorted(histogram, key=histogram.get, reverse=True)


## wikicosas
site = pywikibot.Site('es', 'wiktionary')

for word in sorthist:
	if histogram[word]==1: break
	pageexists = pywikibot.Page(site, word).exists()
	if not pageexists:
		with open('LIST', 'a', encoding='utf8') as t:
			t.write('*[['+word+']]: '+str(histogram[word])+'\n')

Ejemplos de resultados

editar