Código Ejemplo Del Desarrollo De Extractor De Contenido Relevante

$doc->loadHTMLFile($name) $elements = $doc->getElementsByTagName('*'); foreach ($elements as $element) { if ( ($element->nodeName == 'p') or ($element->nodeName == 'br') or ($element->nodeName == 'h2') or ($element->nodeName == 'h3') or ($element->nodeName == 'h4') or ($element->nodeName == 'b') or ($element->nodeName == 'img') ) continue; $work = $element->cloneNode(TRUE); remove_children($work); $len = ( $work->childNodes->length ) * strlen($element->textContent) ; if ( $len > $olen){ $doc->formatOutput = TRUE; $html .= $doc->saveHTML($element); $olen = $len; } } function remove_children(&$node) { $childNodes = array(); foreach($node->childNodes as $childNode) { if ( ($childNode->nodeName != 'p') and ($childNode->nodeName != 'br') and ($childNode->nodeName != 'h3') and ($childNode->nodeName != 'h3') and ($childNode->nodeName != 'h4') and ($childNode->nodeName != 'b') and ($childNode->nodeName != 'img') ){ $childNodes[] = $childNode; } $old_node = $childNode->nodeName; } foreach ($childNodes as $childNode) { $childNode->parentNode->removeChild($childNode); } unset($childNodes); }

$doc->loadHTMLFile($name) $elements = $doc->getElementsByTagName('*'); foreach ($elements as $element) { if ( ($element->nodeName == 'p') or ($element->nodeName == 'br') or ($element->nodeName == 'h2') or ($element->nodeName == 'h3') or ($element->nodeName == 'h4') or ($element->nodeName == 'b') or ($element->nodeName == 'img') ) continue; $work = $element->cloneNode(TRUE); remove_children($work);

<div> <div><div><p>texto</p></div></div> <!- Esta etiqueta no la tiene en cuenta. <!- las siguientes dos etiquetas si las incluirá en el resultado. <div><p>texto</p></div> <div><p>texto</p></div> </div>

$len = ( $work->childNodes->length ) * strlen($element->textContent) ; if ( $len > $olen){ $doc->formatOutput = TRUE; $html .= $doc->saveHTML($element); $olen = $len; }

Extractor de contenido relevante de páginas web

por Arturo Emilio | Feb 10, 2020 | otros

Este es un extractor de contenido relevante muy sencillo hecho con DOMDocument y un par de loops. Es cierto que ya hay extractores de contenido en PHP pero estos hacen uso de librerías externas ( Readability ) o tienen un método de detección muy sencillo que hace uso solamente de los bloques de texto, lo…

Lotus Notes – Columnas con información extraída del contenido.

por Arturo Emilio | Ene 14, 2020 | otros

Trabajando con Lotus Notes para la gestión de incidentes me encontré con una situación en la cual necesitaba mostrar en las vistas una columna con información extraída de un campo de texto. Esta información estaba localizada entre una cadena especifica (era una cadena de números) y para consultarla de otra forma necesitaba acceder al documento…

De como mostrar Adsense con Adblock – Parte 3

por Arturo Emilio | Feb 26, 2014 | Nuevas Entradas, otros, Tecnología Web

De como mostrar Adsense con Adblock – Parte 3

0 comentarios

Código ejemplo del desarrollo de extractor de contenido relevante

Written By Arturo Emilio

Related Posts

Extractor de contenido relevante de páginas web

Lotus Notes – Columnas con información extraída del contenido.

De como mostrar Adsense con Adblock – Parte 3

0 comentarios

Enviar un comentario Cancelar la respuesta

Email

[email protected]

Telegram

arturoyemilio

Follow

@arturoyemilio