Extractor de contenido relevante de páginas web

por | Feb 10, 2020 | otros | 0 Comentarios

Este es un extractor de contenido relevante muy sencillo hecho con DOMDocument y un par de loops. Es cierto que ya hay extractores de contenido en PHP pero estos hacen uso de librerías externas ( Readability  ) o tienen un método de detección muy sencillo que hace uso solamente de los bloques de texto, lo cual dan problemas en páginas más modernas donde hacen uso de etiquetas DIV para formatear el texto.

En esta primera versión solo he incluido los bloques de youtube y twitter si existen en la pagina original, aun tengo que añadir la lógica para que tome en cuenta cuando el contenido son solo imagenes. Aún quedan algunos detalles que pulir pero esto es solo una prueba de concepto. En un futuro articulo explicare el codigo.m

Prueba a pegar una direccion web de algun articulo de alguna pagina web, por ejemplo https://kotaku.com/halo-tv-series-season-2-interview-cast-show-paramount-1851216994.

[SCRAP]

Related Posts

Código ejemplo del desarrollo de extractor de contenido relevante

Hace unos días mostré un plugin de wordpress (más que nada es solo un Shortcode con administración de la caché generada) donde comenté que hacer un extractor del contenido relevante de una página de noticias es algo muy sencillito que solo necesita de un par de loops. Y para qué quiero esto uno puede preguntarse….

Lotus Notes – Columnas con información extraída del contenido.

Lotus Notes – Columnas con información extraída del contenido.

Trabajando con Lotus Notes para la gestión de incidentes me encontré con una situación en la cual necesitaba mostrar en las vistas una columna con información extraída de un campo de texto. Esta información estaba localizada entre una cadena especifica (era una cadena de números) y para consultarla de otra forma necesitaba acceder al documento…

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.