David Efraín Muñoz Morales, Fernando Pérez Téllez, David Eduardo Pinto Avendaño



Nowadays, there exists a huge amount of information on the World Wide Web and since every day is mainly generated a lot of text data, the problem of information overload arise. In this way, the task of extracting meaningful information from text has gained the significant attention of researchers. In this paper, we propose a collaborative tagging system to help users in the task of highlighting important information in plain text files. Additionally, it allows converting tagged texts into a structured format. The web-based system is proposed in order to exploit the relevant content information provided by tagger users, since actual collaborative tagging systems suffer from issues such as tag scarcity or ambiguous labeling. Approaches such as the proposed here can facilitate to obtain better quality in tags and in any domain, allowing to achieve significant improvements in information extraction through named entities extraction, avoiding the noise of information overload.


Hoy en día existe una gran cantidad de información en Internet y ya que cada día se genera mucha información principalmente en forma de texto, el problema de sobrecarga de información se hace presente. En este sentido, la tarea de extraer información significativa de los textos ha ganado la atención de investigadores. En este artículo, proponemos un sistema de etiquetamiento colaborativo para ayudar a los usuarios en la tarea de resaltar información importante en archivos de texto plano. Adicionalmente, el sistema permite convertir textos etiquetados a un formato estructurado. El sistema basado en web es propuesto con el fin de explotar el contenido relevante de la información proporcionada por los usuarios etiquetadores, ya que los sistemas de etiquetamiento colaborativos actuales sufren de algunos problemas tales como la escasez de etiquetas o el etiquetado ambiguo. Enfoques como el propuesto aquí pueden facilitar la obtención de etiquetas con mejor calidad y en cualquier dominio, permitiendo lograr mejoras significativas en la extracción de información a través de la extracción de entidades nombradas, evitando el ruido en la sobrecarga de información.

Texto completo:

877-893 PDF


