thr3ads.net - R help es - [R-es] Procesamiento de Lenguaje Natural [Oct 2017]

If this information is useful, please help other people find it:
Share via:

Gilsanz, Jose Luis

2017-Oct-03 06:43 UTC

[R-es] Procesamiento de Lenguaje Natural

Hola:

Me gustaría que me recomendarais paquetes o alguna forma de "hincarle el
diente" para empezar a investigar en la siguiente cuestión.

El proyecto trata de que, a partir de un numero grande de documentos pdf que
contienen, básicamente, Notas Simples del Registro de la Propiedad deseamos
extraer para cada uno de esos documentos una serie de ítems de información, a
saber:
-Finca Registral
-Registro de la Propiedad
-Referencia Catastral (si la hubiera)
-IDUFIR o CUR (identificadores únicos de finca registral, si las hubiera)

Los documentos provienen de muy diversas fuentes por lo que la información no se
podría extraer con minería de textos "pura" ya que, por ejemplo, la
finca registral puede venir especificada como:
-FINCA DE TOLEDO Nº: XXXXXXX
-Nº Finca: FINCA DE PILAR DE LA HORADADA Nº: XXXXXXX
-Finca registral: XXXXXXX
-REGISTRAL XXXXXX
-FINCA DE MARBELLA (Sección 03) Nº: XXXXXX
-Finca: XXXXXX

Siendo un total profano en la materia, creo que se puede definir como un
proyecto a tratar usando un Procesamiento de Lenguaje Natural, en tanto que se
necesita de un análisis semántico de los textos vista la variedad de formas que
hay de expresar el mismo concepto con textos distintos. Desconozco si existe
algún tipo de proceso de Aprendizaje Automático que se pueda también aplicar
para que el proceso vaya "aprendiendo" como se puede ir encontrando la
información de los distintos ítems de forma complementaria al PLN.

He localizado esta web: 
https://cran.r-project.org/web/views/NaturalLanguageProcessing.html en la que
hay multitud de paquetes/herramientas para análisis de este tipo pero me
gustaría que me indicarais cual o cuales creéis que son los más apropiados para
este caso concreto o si tengo que enfocar el tema por otro lado completamente
distinto.

Mil gracias por vuestros consejos.

Un saludo


JLL Valoraciones, S.A.
Registration number: A-28806222.
Registered Office: Pº de la Castellana, 130 - 1ª ; 28046 Madrid

This e-mail is for the use of the intended recipient(s) only. If you have
received this e-mail in error, please notify the sender immediately and then
delete it. If you are not the intended recipient, you must not use, disclose or
distribute this e-mail without the author's prior permission. We have taken
precautions to minimise the risk of transmitting software viruses, but we advise
you to carry out your own virus checks on any attachment to this message. We
cannot accept liability for any loss or damage caused by software viruses. If
you are the intended recipient and you do not wish to receive similar electronic
messages from us in future then please respond to the sender to this effect

	[[alternative HTML version deleted]]

Rubén Fernández Casal

2017-Oct-03 19:56 UTC

head link

[R-es] Procesamiento de Lenguaje Natural

Hola Jose,
Yo también estoy interesado en el tema, especialmente en el caso de
castellano. Algunos enlaces:
http://r-es.org/tiki/GITPLN#main&ui-page=cssmenu0-4
https://cran.r-project.org/web/views/NaturalLanguageProcessing.html
http://156.35.138.29/

Por si resulta de utilidad, un TFM introductorio para el tratamiento de
texto en inglés es este
http://eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto_1475.pdf.

Un saludo, Rubén.

El 3/10/2017 8:43, "Gilsanz, Jose Luis" <jluis.gilsanz en
eu.jll.com> escribió:
> Hola:
>
> Me gustaría que me recomendarais paquetes o alguna forma de "hincarle
el
> diente" para empezar a investigar en la siguiente cuestión.
>
> El proyecto trata de que, a partir de un numero grande de documentos pdf
> que contienen, básicamente, Notas Simples del Registro de la Propiedad
> deseamos extraer para cada uno de esos documentos una serie de ítems de
> información, a saber:
> -Finca Registral
> -Registro de la Propiedad
> -Referencia Catastral (si la hubiera)
> -IDUFIR o CUR (identificadores únicos de finca registral, si las hubiera)
>
> Los documentos provienen de muy diversas fuentes por lo que la información
> no se podría extraer con minería de textos "pura" ya que, por
ejemplo, la
> finca registral puede venir especificada como:
> -FINCA DE TOLEDO Nº: XXXXXXX
> -Nº Finca: FINCA DE PILAR DE LA HORADADA Nº: XXXXXXX
> -Finca registral: XXXXXXX
> -REGISTRAL XXXXXX
> -FINCA DE MARBELLA (Sección 03) Nº: XXXXXX
> -Finca: XXXXXX
>
> Siendo un total profano en la materia, creo que se puede definir como un
> proyecto a tratar usando un Procesamiento de Lenguaje Natural, en tanto que
> se necesita de un análisis semántico de los textos vista la variedad de
> formas que hay de expresar el mismo concepto con textos distintos.
> Desconozco si existe algún tipo de proceso de Aprendizaje Automático que se
> pueda también aplicar para que el proceso vaya "aprendiendo" como
se puede
> ir encontrando la información de los distintos ítems de forma
> complementaria al PLN.
>
> He localizado esta web:  https://cran.r-project.org/web/views/
> NaturalLanguageProcessing.html en la que hay multitud de
> paquetes/herramientas para análisis de este tipo pero me gustaría que me
> indicarais cual o cuales creéis que son los más apropiados para este caso
> concreto o si tengo que enfocar el tema por otro lado completamente
> distinto.
>
> Mil gracias por vuestros consejos.
>
> Un saludo
>
>
> JLL Valoraciones, S.A.
> Registration number: A-28806222.
> Registered Office: Pº de la Castellana, 130 - 1ª ; 28046 Madrid
>
> This e-mail is for the use of the intended recipient(s) only. If you have
> received this e-mail in error, please notify the sender immediately and
> then delete it. If you are not the intended recipient, you must not use,
> disclose or distribute this e-mail without the author's prior
permission.
> We have taken precautions to minimise the risk of transmitting software
> viruses, but we advise you to carry out your own virus checks on any
> attachment to this message. We cannot accept liability for any loss or
> damage caused by software viruses. If you are the intended recipient and
> you do not wish to receive similar electronic messages from us in future
> then please respond to the sender to this effect
>
>         [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
	[[alternative HTML version deleted]]

Gilsanz, Jose Luis

2017-Oct-04 06:26 UTC

head link

[R-es] [EXTERNAL]Re: Procesamiento de Lenguaje Natural

Muchas gracias Rubén¡¡

Voy a empaparme bien esos enlaces que enviás a ver si consigo ir clarificando el
enfoque.

Gracias¡


De: Rubén Fernández Casal [mailto:rubenfcasal en gmail.com]
Enviado el: martes, 03 de octubre de 2017 21:56
Para: Gilsanz, Jose Luis <jluis.gilsanz en eu.jll.com>
CC: r-help-es en r-project.org
Asunto: [EXTERNAL]Re: [R-es] Procesamiento de Lenguaje Natural

Hola Jose,
Yo también estoy interesado en el tema, especialmente en el caso de castellano.
Algunos enlaces:
http://r-es.org/tiki/GITPLN#main&ui-page=cssmenu0-4
https://cran.r-project.org/web/views/NaturalLanguageProcessing.html
http://156.35.138.29/

Por si resulta de utilidad, un TFM introductorio para el tratamiento de texto en
inglés es este
http://eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto_1475.pdf.

Un saludo, Rubén.

El 3/10/2017 8:43, "Gilsanz, Jose Luis" <jluis.gilsanz en
eu.jll.com<mailto:jluis.gilsanz en eu.jll.com>> escribió:
Hola:

Me gustaría que me recomendarais paquetes o alguna forma de "hincarle el
diente" para empezar a investigar en la siguiente cuestión.

El proyecto trata de que, a partir de un numero grande de documentos pdf que
contienen, básicamente, Notas Simples del Registro de la Propiedad deseamos
extraer para cada uno de esos documentos una serie de ítems de información, a
saber:
-Finca Registral
-Registro de la Propiedad
-Referencia Catastral (si la hubiera)
-IDUFIR o CUR (identificadores únicos de finca registral, si las hubiera)

Los documentos provienen de muy diversas fuentes por lo que la información no se
podría extraer con minería de textos "pura" ya que, por ejemplo, la
finca registral puede venir especificada como:
-FINCA DE TOLEDO Nº: XXXXXXX
-Nº Finca: FINCA DE PILAR DE LA HORADADA Nº: XXXXXXX
-Finca registral: XXXXXXX
-REGISTRAL XXXXXX
-FINCA DE MARBELLA (Sección 03) Nº: XXXXXX
-Finca: XXXXXX

Siendo un total profano en la materia, creo que se puede definir como un
proyecto a tratar usando un Procesamiento de Lenguaje Natural, en tanto que se
necesita de un análisis semántico de los textos vista la variedad de formas que
hay de expresar el mismo concepto con textos distintos. Desconozco si existe
algún tipo de proceso de Aprendizaje Automático que se pueda también aplicar
para que el proceso vaya "aprendiendo" como se puede ir encontrando la
información de los distintos ítems de forma complementaria al PLN.

He localizado esta web: 
https://cran.r-project.org/web/views/NaturalLanguageProcessing.html en la que
hay multitud de paquetes/herramientas para análisis de este tipo pero me
gustaría que me indicarais cual o cuales creéis que son los más apropiados para
este caso concreto o si tengo que enfocar el tema por otro lado completamente
distinto.

Mil gracias por vuestros consejos.

Un saludo


JLL Valoraciones, S.A.
Registration number: A-28806222.
Registered Office: Pº de la Castellana, 130 - 1ª ; 28046 Madrid

This e-mail is for the use of the intended recipient(s) only. If you have
received this e-mail in error, please notify the sender immediately and then
delete it. If you are not the intended recipient, you must not use, disclose or
distribute this e-mail without the author's prior permission. We have taken
precautions to minimise the risk of transmitting software viruses, but we advise
you to carry out your own virus checks on any attachment to this message. We
cannot accept liability for any loss or damage caused by software viruses. If
you are the intended recipient and you do not wish to receive similar electronic
messages from us in future then please respond to the sender to this effect

        [[alternative HTML version deleted]]


_______________________________________________
R-help-es mailing list
R-help-es en r-project.org<mailto:R-help-es en r-project.org>
https://stat.ethz.ch/mailman/listinfo/r-help-es

	[[alternative HTML version deleted]]

Maybe Matching Threads

Search for more apparently analagous threads

R help es - Oct 2017 - Procesamiento de Lenguaje Natural

[R-es] Procesamiento de Lenguaje Natural

[R-es] Procesamiento de Lenguaje Natural

[R-es] [EXTERNAL]Re: Procesamiento de Lenguaje Natural

Maybe Matching Threads