Ouracademy

Representacion numérica de textos

En esta era digital, la cantidad de textos, imagenes, videos ha aumentado exponecialmente, habran escuchado que esto es referido como datos no estructurados, y bueno si tienes muchos de estos datos , querras aprovecharlo, pero para eso deberas pasarlo a una forma que las maquinas y los algoritmos puedan entender, y wala, lo que entienden son los números.

En general, si quieres procesar el mundo, debes pensar ¿como lo represento en números? Un ejemplo mas directo son las imágenes, que se representa en un conjunto de pixeles. Bueno iniciemos ... Un texto se puede representar de muchas formas iremos describiendo de lo mas simple a lo mas complejo:

  • Mapear cada palabra con un identificador. Es decir si tengo estas oraciones:

  • El gato esta jugando.

  • Los perros van al parque.

  • Yo tengo dos gatos y un perro. Las tres oraciones forman tu "text corpus" Las palabras en las oraciones forman tu "vocabulario":

    TablesAreCool
    col 1 isleft-aligned\$1600
    col 2 iscentered\$12
    col 3 isright-aligned\$1
    012345678910
    Elgatoestajugandolosperrosvanalparqueyo
Si te fue útil este artículo, por favor compártelo. Apreciamos los comentarios y el aliento.
Compartelo por:

Quiza te pueda interesar...

CoreNLP: Un tutorial

Extrayendo entidades y relaciones de ciertas paginas web

Mock, Stub, Fake, Dummy, Spy

Una historia de patrones de testing del articulo de Uncle Bob Martin el pequeño mocker

Casos de uso y Historias de usuario

diferencias entre casos de uso y historias de usuario traducido de Martin Fowler