En el contexto del procesamiento automático de los corpus electrónicos, un método supervisado se refiere al enriquecimiento de estos recursos mediante la aplicación de etiquetas con información típicamente lingüística, de cualquier nivel del lenguaje. La ganancia adquirida contribuye al aprendizaje de cosas imprevisibles sobre los fenómenos lingüísticos y extralingüísticos que los corpus representan.
En cambio, un método no supervisado, como el que se describe en este libro, no presupone más que el corpus o muestra textual en su estado original, pero permite la generación de conocimiento lingüístico de maneras sorprendentes. Por ejemplo, el método descrito aquí busca identificar objetos lingüísticos mediante la medición de propiedades cuantitativas, como las relaciones combinatorias, entrópicas y económicas entre cadenas de caracteres.
Así, este método contribuye a descubrir la morfología afijal de lenguas concatenativas como el español, el maya o el ralámuli, sin conocimiento previo de sus morfologías, mediante medidas de una fuerza o energía imaginada de afijalidad que permiten determinar las fronteras entre lexemas y afijos.