Búsqueda de proyectos de investigación, programas de impacto, trabajos de investigación y otros

Tesis para optar el Título Profesional - UNSA
Trabajo de Investigación para optar el Título Profesional, 2018-1
Selección de Vectores Característica para la Clasificación de Documentos Usando Redes Neuronales

Grimaldo José Dávila Guillén; Cristian José Lopez Del Alamo

URI:
http://proyectos-vri.unsa.edu.pe/handle/91.103.221022/4019

Objetivo

El objetivo general de este trabajo es el desarrollo de un método para seleccionar vectores característica de documentos para la clasificación mediante el uso de redes neuronales.

Resumen:

En la actualidad se utiliza una gran cantidad de métodos para la clasificación de documentos de texto. Un método aplicado frecuentemente son las redes neuronales; sin embargo, una desventaja de éstas, se encuentra al momento de seleccionar vectores característica que representen la información de una manera más precisa y rica. Estos vectores sirven como entrada para el entrenamiento de la red neuronal. En este trabajo de investigación, se hace uso de un método de comparación por similaridad de documentos de texto, el cual se basa en la creación de grafos a partir de conceptos adaptados de la teoría de análisis así como algoritmos de comparación de modelos 3D no rígidos. Luego, se obtiene un conjunto mejorado de vectores característica para el entrenamiento de una red neuronal, con la cual se realizará los experimentos para posteriormente analizar los resultados de clasificación obtenidos.

Palabras clave

clasificación de documentos, vector característica, redes neuronales, modelos no-rígidos, UNSA, Arequipa

Problema central

Una de las características de las redes neuronales actuales es que tienen un alto perfomance en cuanto a resultados, sin embargo muchas de estas dependen del vector característica que representa el objeto el con el cual se va a entrenar, en tal sentido, un problema puntual es encontrar un vector característica adecuado que represente de la mejor manera la semántica de un documento. Las redes neuronales juegan un rol importante en la clasificación de documentos de texto. Día a día se necesita categorizar distintos tipos de datos en diferentes áreas y sectores como por ejemplo, en el sector médico, se podría utilizar historias de pacientes anteriores ya diagnosticados, para poder elegir un posible diagnóstico de un paciente nuevo; en el ámbito constitucional, existe también la necesidad de clasificación con respecto a casos ya resueltos, para poder facilitar el análisis de un caso nuevo con respecto a uno existente, o también poder clasificar documentos de procedimientos jurídicos para una mejor organización. La clasificación de documentos es ampliamente utilizada al momento de asignarle categorías a una gran cantidad de documentos, lo cual es una tarea difícil de realizar manualmente, más aún si éstos son de gran tamaño.

Hipótesis planteada

Es factible desarrollar un algoritmo para obtener un vector característica que almacene información semántica de documentos.

Resultados esperados

- Un (01) artículo científico publicado en revista indizada en la base Scopus o Web of Science
-Título profesional.
- Ponencias donde difunda los resultados intermedios o finales de la investigación en eventos científicos de nivel internacional de reconocido prestigio.
- Mayor visibilidad mundial de los trabajos de investigación que se desarrollan en la UNSA.
- Prototipo de clasificación semántica de documentos.

Impactos esperados

-Respecto a lo académico un nuevo algoritmo para la clasificación de documentos.
-En cuanto a lo social día a día se necesita categorizar distintos tipos de datos en diferentes áreas y sectores como por ejemplo, en el sector médico, se podría utilizar historias de pacientes anteriores ya diagnosticados, para poder elegir un posible diagnóstico de un paciente nuevo. Por otro lado, en el ámbito judicial, existe la necesidad de clasificar documentos con respecto a casos ya resueltos; entonces, un sistema automático de clasificación podrá facilitar el análisis de un caso nuevo.