Este es un extractor de contenido relevante muy sencillo hecho con DOMDocument y un par de loops. Es cierto que ya hay extractores de contenido en PHP pero estos hacen uso de librerías externas ( Readability  ) o tienen un método de detección muy sencillo que hace uso solamente de los bloques de texto, lo cual dan problemas en páginas más modernas donde hacen uso de etiquetas DIV para formatear el texto.

En esta primera versión solo he incluido los bloques de youtube y twitter si existen en la pagina original, aun tengo que añadir la lógica para que tome en cuenta cuando el contenido son solo imagenes. Aún quedan algunos detalles que pulir pero esto es solo una prueba de concepto. En un futuro articulo explicare el codigo.m

Prueba a pegar una direccion web de algun articulo de alguna pagina web, por ejemplo https://kotaku.com/halo-tv-series-season-2-interview-cast-show-paramount-1851216994.

Pega el link completo aqui (incluido el http/https).