From 40e2e20378fb06e43cc93f67427f865a0de0a692 Mon Sep 17 00:00:00 2001 From: Bryan Newbold Date: Tue, 3 Nov 2020 11:29:22 -0800 Subject: commit WIP HTML ingest proposal --- proposals/20201026_html_ingest.md | 97 +++++++++++++++++++++++++++++++++++++++ 1 file changed, 97 insertions(+) create mode 100644 proposals/20201026_html_ingest.md (limited to 'proposals') diff --git a/proposals/20201026_html_ingest.md b/proposals/20201026_html_ingest.md new file mode 100644 index 0000000..90bc6e5 --- /dev/null +++ b/proposals/20201026_html_ingest.md @@ -0,0 +1,97 @@ + +status: wip + +HTML Ingest Pipeline +======================== + +Basic goal: given an ingest request of type 'html', output an object (JSON) +which could be imported into fatcat. + +Should work with things like (scholarly) blog posts, micropubs, registrations, +protocols. Doesn't need to work with everything to start. "Platform" sites +(like youtube, figshare, etc) will probably be a different ingest worker. + +A current unknown is what the expected size of this metadata is. Both in number +of documents and amount of metadata per document. + +Example HTML articles to start testing: + +- complex distill article: +- old HTML journal: +- NIH pub: +- first mondays (OJS): +- d-lib: + +## Ingest Process + +Follow base URL to terminal document, which is assumed to be a status=200 HTML document. + +Verify that terminal document is fulltext. Extract both metadata and fulltext. + +Extract list of sub-resources. Filter out unwanted (eg favicon, analytics, +unnecessary), apply a sanity limit. Convert to fully qualified URLs. For each +sub-resource, fetch down to the terminal resource, and compute hashes/metadata. + +TODO: +- will probably want to parallelize sub-resource fetching. async? +- behavior when failure fetching sub-resources + + +## Ingest Result Schema + +JSON should + +The minimum that could be persisted for later table lookup are: + +- (url, datetime): CDX table +- sha1hex: `file_meta` table + +Probably makes most sense to have all this end up in a large JSON object though. + + +## New SQL Tables + +`html_meta` + surt, + timestamp (str?) + primary key: (surt, timestamp) + sha1hex (indexed) + updated + status + has_teixml + biblio (JSON) + resources (JSON) + +Also writes to `ingest_file_result`, `file_meta`, and `cdx`, all only for the base HTML document. + +## Fatcat API Wants + +Would be nice to have lookup by SURT+timestamp, and/or by sha1hex of terminal base file. + +`hide` option for cdx rows; also for fileset equivalent. + +## New Workers + +Could reuse existing worker, have code branch depending on type of ingest. + +ingest file worker + => same as existing worker, because could be calling SPN + +persist result + => same as existing worker + +persist html text + => talks to seaweedfs + + +## New Kafka Topics + +HTML ingest result topic (webcapture-ish) + +sandcrawler-ENV.html-teixml + JSON + same as other fulltext topics + +## TODO + +- refactor ingest worker to be more general -- cgit v1.2.3 From 9beafd7c5fc98571ec26b49d223ce660378d7b9e Mon Sep 17 00:00:00 2001 From: Bryan Newbold Date: Tue, 3 Nov 2020 19:29:02 -0800 Subject: XML ingest proposal --- proposals/20201103_xml_ingest.md | 64 ++++++++++++++++++++++++++++++++++++++++ 1 file changed, 64 insertions(+) create mode 100644 proposals/20201103_xml_ingest.md (limited to 'proposals') diff --git a/proposals/20201103_xml_ingest.md b/proposals/20201103_xml_ingest.md new file mode 100644 index 0000000..c0d0a79 --- /dev/null +++ b/proposals/20201103_xml_ingest.md @@ -0,0 +1,64 @@ + +status: wip + +TODO: +x XML fulltext URL extractor (based on HTML biblio metadata, not PDF url extractor) +x differential JATS XML and scielo XML from generic XML? + application/xml+jats is what fatcat is doing for abstracts + but it should be application/jats+xml? + application/tei+xml + if startswith "
" => JATS +x refactor ingest worker to be more general +x have ingest code publish body to kafka topic +/ create/configure kafka topic +/ write a persist worker +- test everything locally +- fatcat: ingest tool to create requests +- fatcat: entity updates worker creates XML ingest requests for specific sources +- fatcat: ingest file import worker allows XML results +- ansible: deployment of persist worker + +XML Fulltext Ingest +==================== + +This document details changes to include XML fulltext ingest in the same way +that we currently ingest PDF fulltext. + +Currently this will just fetch the single XML document, which is often lacking +figures, tables, and other required files. + +## Ingest Worker + +Could either re-use HTML metadata extractor to fetch XML fulltext links, or +fork that code off to a separate method, like the PDF fulltext URL extractor. + +Hopefully can re-use almost all of the PDF pipeline code, by making that ingest +worker class more generic and subclassing it. + +Result objects are treated the same as PDF ingest results: the result object +has context about status, and if successful, file metadata and CDX row of the +terminal object. + +TODO: should it be assumed that XML fulltext will end up in S3 bucket? or +should there be an `xml_meta` SQL table tracking this, like we have for PDFs +and HTML? + +TODO: should we detect and specify the XML schema better? Eg, indicate if JATS. + + +## Persist Pipeline + +### Kafka Topic + +sandcrawler-ENV.xml-doc + similar to other fulltext topics; JSON wrapping the XML + key compaction, content compression + +### S3/SeaweedFS + +`sandcrawler` bucket, `xml` folder. Extension could depend on sub-type of XML? + +### Persist Worker + +New S3-only worker that pulls from kafka topic and pushes to S3. Works +basically the same as PDF persist in S3-only mode, or like pdf-text worker. -- cgit v1.2.3 From 653fac9632c6ae9dd036ad844454cf419cd5320b Mon Sep 17 00:00:00 2001 From: Bryan Newbold Date: Tue, 3 Nov 2020 22:40:14 -0800 Subject: xml: re-encode XML docs into UTF-8 for persisting --- proposals/20201103_xml_ingest.md | 19 +- python/sandcrawler/ingest.py | 4 +- python/sandcrawler/xml.py | 7 + python/tests/files/scielo_article.jats.xml | 336 +++++++++++++++++++++++++++++ python/tests/test_xml.py | 18 ++ 5 files changed, 382 insertions(+), 2 deletions(-) create mode 100644 python/sandcrawler/xml.py create mode 100644 python/tests/files/scielo_article.jats.xml create mode 100644 python/tests/test_xml.py (limited to 'proposals') diff --git a/proposals/20201103_xml_ingest.md b/proposals/20201103_xml_ingest.md index c0d0a79..181cc11 100644 --- a/proposals/20201103_xml_ingest.md +++ b/proposals/20201103_xml_ingest.md @@ -10,8 +10,8 @@ x differential JATS XML and scielo XML from generic XML? if startswith "
" => JATS x refactor ingest worker to be more general x have ingest code publish body to kafka topic +x write a persist worker / create/configure kafka topic -/ write a persist worker - test everything locally - fatcat: ingest tool to create requests - fatcat: entity updates worker creates XML ingest requests for specific sources @@ -27,6 +27,23 @@ that we currently ingest PDF fulltext. Currently this will just fetch the single XML document, which is often lacking figures, tables, and other required files. +## Text Encoding + +Because we would like to treat XML as a string in a couple contexts, but XML +can have multiple encodings (indicated in an XML header), we are in a bit of a +bind. Simply parsing into unicode and then re-encoding as UTF-8 could result in +a header/content mismatch. Any form of re-encoding will change the hash of the +document. For recording in fatcat, the file metadata will be passed through. +For storing in Kafka and blob store (for downstream analysis), we will parse +the raw XML document (as "bytes") with an XML parser, then re-output with UTF-8 +encoding. The hash of the *original* XML file will be used as the key for +refering to this document. This is unintuitive, but similar to what we are +doing with PDF and HTML documents (extracting in a useful format, but keeping +the original document's hash as a key). + +Unclear if we need to do this re-encode process for XML documents already in +UTF-8 encoding. + ## Ingest Worker Could either re-use HTML metadata extractor to fetch XML fulltext links, or diff --git a/python/sandcrawler/ingest.py b/python/sandcrawler/ingest.py index 1a42b6a..363485e 100644 --- a/python/sandcrawler/ingest.py +++ b/python/sandcrawler/ingest.py @@ -18,6 +18,7 @@ from sandcrawler.html import extract_fulltext_url from sandcrawler.html_metadata import html_extract_fulltext_url, XML_FULLTEXT_PATTERNS from sandcrawler.workers import SandcrawlerWorker from sandcrawler.db import SandcrawlerPostgrestClient +from sandcrawler.xml import xml_reserialize class IngestFileWorker(SandcrawlerWorker): @@ -316,10 +317,11 @@ class IngestFileWorker(SandcrawlerWorker): count), or attempting to fetch sub-resources. """ if self.xmldoc_sink and file_meta['mimetype'] == "application/jats+xml": + jats_xml = xml_reserialize(resource.body) msg = dict( sha1hex=file_meta["sha1hex"], status="success", - jats_xml=resource.body.encode('utf-8'), + jats_xml=jats_xml, ) self.xmldoc_sink.push_record(msg, key=file_meta['sha1hex']) return dict(status="success") diff --git a/python/sandcrawler/xml.py b/python/sandcrawler/xml.py new file mode 100644 index 0000000..7a0086d --- /dev/null +++ b/python/sandcrawler/xml.py @@ -0,0 +1,7 @@ + +import xml.etree.ElementTree as ET + + +def xml_reserialize(raw: bytes) -> str: + root = ET.fromstring(raw) + return '\n' + ET.tostring(root, encoding="unicode") diff --git a/python/tests/files/scielo_article.jats.xml b/python/tests/files/scielo_article.jats.xml new file mode 100644 index 0000000..08c864e --- /dev/null +++ b/python/tests/files/scielo_article.jats.xml @@ -0,0 +1,336 @@ +
+ + +1683-9803 + + +1683-9803 + + + + + +S1683-98032015000200002 +10.18004/ped.2015.agosto.102-107 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +Paraguay + + + + +Paraguay + + + + +Paraguay + + +30 +08 +2015 + + +30 +08 +2015 + +42 +2 +102 +107 + + +

+

+ + + + + + + + +
+
ARTÍCULO ORIGINAL

 

Prevalencia de desnutrición y hábitos alimentarios en  niños menores de 5 años en las comunidades indígenas de Yby Yau y Azote’y, 2011

Prevalence of malnutrition and eating habits in children under 5 years of age in indigenous communities in Azote'y and Yby Yau, 2011

 

Syntia Carolina Ruiz Valiente(1), Manuel Ruiz Cañete(2), Bartola Cohene Velazquez(3)

1. Hospital General Pediátrico Niños Acosta Ñu. Reducto-San Lorenzo, Paraguay.

2. Centro de Salud de Yby Yau. Paraguay.

3. Puesto de Salud de Paso Tuya. Azote’y. Paraguay.

Correspondencia: Syntia Carolina Ruiz Valiente. E-mail: scrv_py@hotmail.com

]]> + Recibido: 24/01/2015; Aceptado: 10/06/2015.

Los autores declaran que no existen conflictos de interés en el presente estudio.

 


RESUMEN

Introducción: La infancia es una etapa trascendental en el desarrollo evolutivo del hombre, para lo cual es fundamental una adecuada nutrición. La desnutrición infantil no es solo un problema de falta de alimentos, es un conflicto social más profundo. La prevalencia de desnutrición en menores de 5 años del país es de 5,9% según datos del Instituto Nacional de Alimentación y Nutrición. Objetivo: Determinar la prevalencia de desnutrición y hábitos alimentarios en niños menores de 5 años de las comunidades indígenas de Yby Yaú y Azote’y. Materiales y Métodos: Estudio descriptivo, transversal, realizado de enero a abril del 2011, que identificó la prevalencia de desnutrición infantil en niños indígenas de las etnias Pa'i Tavyterã y Mbya Guaraní de 11 comunidades indígenas de Yby Yau y Azote’y. Fueron examinados 349 menores de 5 años de edad. Para la evaluación del estado nutricional se utilizó la curva de crecimiento de la OMS. Los niños/as fueron pesados/as en balanzas mecánicas. Para la medida de la altura, los mayores de dos años fueron medidos con el tallimetro y los menores de 2 años con cinta métrica. Resultados: Se observó desnutrición en 53 niños que equivale al 15% de la muestra. De estos 60,4% padecían de desnutrición moderada y 39,6% desnutrición grave. El mayor porcentaje de desnutrición se encontró en el grupo de edad de 0 a 24 meses con 71,6%. El 77% de los niños tenían desnutrición crónica. Conclusiones: La prevalencia de desnutrición en indígenas en Yby Yaú y Azote’y es de 15%, lo que sobrepasa los índices de desnutrición en menores de 5 años del país.

Palabras clave: Desnutrición aguda, desnutrición crónica, indígenas.

 

ABSTRACT

Introduction: Childhood is a crucial stage in the development of humans, which is why proper nutrition is essential for this stage. Child malnutrition is not just a problem of lack of food, it is rooted in deeper social problems. The prevalence of malnutrition in children under five years of age  in Paraguay is 5.9% , according to the Paraguayan National Institute of Food and Nutrition. Objective: Determine the prevalence of malnutrition and the eating habits in children under five years of age in indigenous communities in the towns of Azote'y and Yaú Yby. Materials and Methods: This was a descriptive, cross-sectional study conducted from January to April 2011, which identified the prevalence of child malnutrition in indigenous children in 11 ethnic Pa'i Tavyterá and Mbya Guarani indigenous communities in Azote'y and Yby Yau. We examined 349 children under 5 years of age. The World Health Organization (WHO) growth charts were used to assess nutritional status. Children were weighed with mechanical scales. To measure height, children two and older were measured with a stadiometer and children younger than two were measured with tape. Results: Malnutrition was observed in 53 children (15% of the sample). Of these, 60.4% were suffering from moderate malnutrition and 39.6% from severe malnutrition. The highest percentage of malnutrition was found in the 0-24 month age group (71.6%). 77% of children had chronic malnutrition. Conclusions: The prevalence of malnutrition in indigenous children in Yby Yaú and Azote'y is 15%, which exceeds the national malnutrition rates in children under five years of age.

Keywords: Acute malnutrition, chronic malnutrition, indigenous.


]]> + 

INTRODUCCIÓN

La desnutrición es una enfermedad multisistémica, que afecta todos los órganos y sistemas del ser humano, es producida por una disminución drástica, aguda o crónica, en la disponibilidad de nutrimentos, ya sea por ingestión insuficiente, inadecuada absorción, exceso de pérdidas o la conjunción de dos o más de estos factores. Se manifiesta por grados de déficit antropométrico, signos y síntomas clínicos y alteraciones bioquímicas, hematológicas e inmunológicas (1).

La población indígena está gravemente afectada por este problema, tal vez por ser un estrato olvidado y descuidado por la población en general y por el estado paraguayo. A pesar de las leyes, y de todos los proyectos que favorecen a esta esfera de la sociedad, aún existe un abismo inimaginable entre lo ideal y lo real. Mientras se elaboran programas que buscan dar mejores condiciones de vida a estas comunidades, que la mayoría de las veces solo quedan plasmados en el papel, los índices de desnutrición son alarmantes. Esto se debe probablemente a que en la sociedad posmoderna, la deforestación, el uso de agrotóxicos, la invasión de los terratenientes despojó a los nativos de sus tierras, obligándolos a vivir en situaciones carenciales, pues estos debido a su cultura esperan que la naturaleza les ofrezca el sustento diario. Las costumbres, la economía y la religión en las etnias Paí Tavyterã y Mby`a Guaraní están íntimamente relacionadas a la producción alimenticia e ingesta.

Para el nativo guaraní es muy difícil comprender que el hombre es el que debe producir alimento para su sustento, pero como la sociedad actual obliga a ello, estos por no conseguir adaptarse a los cambios que se produjeron, están más expuestos a las carencias alimentarias. Según datos del gobierno central en el 2008, 41,8% de los niños indígenas menores de 5 años padecían de desnutrición.

En un estudio realizado en México, la prevalencia de desnutrición en indígenas fue 39,4%(2). Un 44% presentó uno o más signos clínicos de malnutrición. Según el Instituto Nacional de Encuestas y Censos del Ecuador (2001 y 2006) 40,1% de los niños indígenas menores de 5 años tienen desnutrición crónica (3).

En Caracas, se hizo un estudio con la población infantil warao en la comunidad de Yakariyene, estado Delta Amacuro, y ellos obtuvieron el siguiente resultado: El diagnóstico nutricional hallado con mayor frecuencia fue Nutrición normal (55%) seguida por Desnutrición Subclínica (15%) y Desnutrición Leve (12%). En líneas generales, un 55% de la población se encontraba en rangos de nutrición normal, mientras el 45% restante presentaba problema de malnutrición comprendiendo ésta por déficit y por exceso (4).

En el Brasil en un estudio realizado para determinar el perfil nutricional de los aborígenes menores de 5 años de Kaingángen Paraná vieron que cuando utilizado los criterios propuestos por la OMS, se registró una alta prevalencia de déficit Estatura/Edad, con uno en cuatro niños (24,8%) que presentaba este diagnóstico. El déficit de Peso/Edad fue diagnosticado en 9,2% de los niños evaluados. Los índices de peso para la altura diagnosticaron solo tres niños (2,1%) como desnutridas agudas (5).

En otro estudio realizado también en el Brasil, esta vez en Amazonia, con niños de la etnia Suruí se observó que los porcentajes de los niños con déficit en los índices de estatura para la edad fue 31,4%, peso para la edad 12,4% y peso para la estatura 0% (6).

El objetivo del presente estudio es determinar la prevalencia de desnutrición en niños menores de 5 años de las comunidades indígenas de Yby-Yaú y Azote’y y conocer el comportamiento alimentario de los niños/as de las comunidades indígenas estudiadas.

]]> + 

MATERIALES Y MÉTODOS

Estudio transversal, descriptivo realizado en el periodo de enero a abril del año 2011, donde se identificó la prevalencia de desnutrición infantil en niños indígenas de las etnias Paĩ Tavyterã y Mby`a Guaraní en los distritos de Yby-Yaú y Azote’y.

El tamaño muestral total fue de 370 niños, determinado a través de censo realizado por el Centro de Salud de Yby-Yaú y el Puesto de Salud de Paso Tuya. Para los fines del estudio fueron identificados 349 niños (94.3%) de niños recién nacidos a menores de 5 años en los distritos de Yby-Yaú y Azote'y.

Las etnias que se encuentran dentro del área de estudio está compuesta por los mby`a guaraní y los paĩ tavyterã, distribuidas en las siguientes comunidades indígenas: Vy'apavẽ, Yrapey, Guyrakeha, Guyra Ñe'engatuamba, Satí;, San Juan, Mbery'o Jaguarymi, Ka'aguy Poty Rory, Yvyra'ija, Tukambiju y Takuaritiy.

El trabajo se realizó por concentración, en los locales fijados por los líderes de las distintas comunidades. Fue aplicado un cuestionario a las madres, creado para el efecto por medio de entrevista. La edad de los niños fue dada por las madres, pues la mayoría de estas no cuentan con registro de nacimiento, ni siquiera certificado de nacido vivo.

Para la evaluación del estado nutricional de los niños se optó por la curva del gráfico de crecimiento de la Organización Mundial de la Salud (OMS) lo cual está contenido en la libreta del niño y la niña. Los niños/as fueron pesados/as en balanzas mecánicas, los que ya conseguían quedarse de pie fueron pesados en balanza de pie y los niños menores de 1 año en balanzas colgantes.

Para la medida de la altura, los niños mayores de dos años fueron colocados en posición de pie, bien rectos, y fueron medidos con el tallimetro. La talla de los niños menores de 2 años fue realizada con cinta métrica con el niño/a en decúbito supino en superficie recta.

Los datos fueron analizados manualmente, y los gráficos confeccionados con el programa Microsoft Office Excel 2007.

 

]]> +RESULTADOS

Se evaluaron 349 niños, que representan el 94,3% del total de aborígenes menores de 5 años de las comunidades de Yby-Yaú y Azote’y. Del total de 349 niños, 69 % (240) son Paí; Tavyterã y 31% (109) Mby`a Guaraní.

La comunidad con el mayor porcentaje de niños fue la de Vy'ãpavẽ (36,4%), y la de menor frecuencia fue la comunidad de Tekoha Kagãtã, que es una comunidad recién formada localizada en Pasiño (Figura 1).

 

Viendo el perfil nutricional de los niños, se pudo observar que 61% de los niños/as no están desnutridos, 24% de los niños/as están en riesgo de desnutrición y 15% están con desnutrición. Aunque se trata de un estrato social desfavorecido también se observa índice de sobrepeso y obesidad, en las comunidades de Vy'ãpavẽ e Yrapey (Figura 2).

 

]]> +Teniendo presente los gráficos de Talla/Edad la prevalencia de desnutrición crónica es bastante elevada, pues 77% de los niños padecen de desnutrición crónica. El mayor índice de desnutrición se encuentran en los primeros 24 meses de vida (Tabla 1). De los 53 niños con desnutrición, 60,4% padecen de desnutrición moderada, y el 39,6% desnutrición grave. Siendo que el mayor porcentaje de desnutrición se observa en Vy'ãpavẽ.

 

Se estudió además el comportamiento alimentario de estos niños, viendo que alimentos preferencialmente hacen parte de su dieta y la edad de introducción de los mismos, la mayoría de las madres introducen algún tipo alimento entre los 6 y 8 meses de edad (Figura 3) y los primeros alimentos introducidos dependen del lugar donde estos habitan. El caldo de pescado es uno de los primeros alimentos introducidos en las comunidades que viven cerca de los ríos, entretanto el 60% inician la alimentación con caldo de arroz y caldo de fideo.

 

Al observar la frecuencia en que se alimentan estos niños, el 64% se alimenta tres veces al día, el 20% menos de 3 veces al día y solo el 16 % más de tres veces al día.

El principal nutriente en la dieta son los carbohidratos, el 47% de los niños consumen carbohidratos más de 5 veces por semana, y el 21% menos de 3 veces por semana. El mayor porcentaje de consumo de proteínas se observa en las comunidades que se encuentran cerca de ríos (Guyra Ñe`engatuamba y Mbery'o Jaguarymi), siendo que 70% consume proteínas menos de 3 veces por semana, y solo el 3% más de cinco veces por semana. El consumo de verduras y hortalizas es muy escaso, el 91% consume verduras y hortalizas menos de 3 veces por semana, el 2% más de 5 veces y 7% entre 3 y 5 veces por semana.

]]> + 

DISCUSIÓN

A lo largo de toda la historia de la humanidad, la desnutrición ha sido una patología de las clases sociales menos privilegiadas, son los que no poseen las condiciones necesarias para tener una vida digna, donde la educación, salud, recursos económicos son miserables, donde esta dolencia alcanza su auge (7).

Según los datos del Censo realizado por la Unidad de Salud Indígena que se encuentra en el Distrito de Yby-Yaú, los Puestos de Salud de Yby- Yaú y Azote’y en el tercer trimestre del Año 2010, se encontraron 328 niños de hasta 60 meses (8). Al realizar los trabajos de campo, este número se elevó a 349 individuos, por lo que se hizo un nuevo censo solo con los niños de este grupo etario. Ese fenómeno tal vez, se deba a la migraciones que se desarrollan normalmente entre los guaraní. Al observar la historia, y también por la experiencia que se adquirió durante el trabajo de campo, se pudo observar la familia lingüística a la cual pertenecen los mby`a y los paí; (la guaraní) son nómadas, es común que migren a otras comunidades, en un mismo Tekoha (9,10).

La población diana fue de 370 niños menores de 5 años de los cuales se llegó a entrevistar a las madres de 349 y se hizo las mediciones antropométricas posteriormente. En la mayoría de las comunidades indígenas se obtuvo el 100% de participación, son excepciones las comunidades de Yrapey y Takuaritiy.

Del total de niños/as, la etnia de mayor prevalencia fue la de Paí; Tavyterã. En relación al sexo, las comunidades son bastante equilibradas, con una ligera prevalencia del sexo masculino sobre el femenino.

Según datos de la UNICEF en Paraguay se observa 3,4% de desnutrición aguda en niños menores de 5 años (11). La prevalencia de desnutrición en los niños paraguayos menores de 5 años en el área rural es de 5,9% y en el área urbana es de 4,5% (12). Existen pocas publicaciones sobre este tema en aborígenes menores de 5 años, siendo que el mayor número de publicaciones fue realizado por el Brasil (12,4%), México (39,4%) y Ecuador.

La prevalencia de desnutrición en las comunidades indígenas de Yby-Yaú y Azote’y es de 15,2%, observando los gráficos de Peso/edad si de 2 años y Peso/Talla en mayores de 2 años y menores de 5 años. Las comunidades donde la desnutrición son más prevalentes son Guyrakeha e Yvyra'ija; en Satí; y Tekoha Kagatã no se encontró niños desnutridos.

De 53 niños con desnutrición, 60,4% padecen de desnutrición moderada, y el 39,6% desnutrición grave. El grupo con mayor índice de desnutrición, se encuentra durante los primeros 24 meses, pues es en esta etapa donde el organismo requiere una mayor cantidad de nutrientes por el mayor crecimiento. Además, después de los 6 meses se inicia la introducción de otros alimentos. Estos dos factores, asociados aumentan el índice de desnutrición en este grupo de edad.

De la población total de los niños estudiados el 23,8% están con riesgo de desnutrición. Según el Instituto Nacional de Alimentación y Nutrición (INAN) en el año 2010, 13,6% de niños menores de 5 años del área urbana y 16,2% del área rural del Paraguay sufren desnutrición crónica. En una encuesta realizada por la Dirección General de Estadística, Encuestas y Censos en el año 2008, 41,8% de los niños/as indígenas menores de cinco años padecen de desnutrición crónica. Observadas las medidas de Talla/Edad el 77% de los niños padecen de desnutrición crónica. Ese dato es alarmante, porque la desnutrición crónica es consecuencia de una carencia prolongada de alimentos o enfermedades sucesivas. En Tukambiju, Mbery'o Jaguarymi, Guyrakeha, Yvyra'ija y Satí; son comunidades con una prevalencia mayor al 80% de niños/as con talla baja para la edad.

]]> +El índice de desnutrición en indígenas en los distritos de Yby-Yaú y Azote’y, sobrepasa la prevalencia general de desnutrición en menores de 5 años del país, lo cual está alrededor de 5.9% según datos del INAN.

En las comunidades indígenas se puede observar que un porcentaje razonable introduce alimentos entre los 6 meses y antes de los 9 meses. El porcentaje de los que introducen antes de los 6 meses es de 18,6% y entre los 9 meses y un año es de 27%. Se pudo observar que, ocho niños tuvieron lactancia materna exclusiva por más de 1 año. Todos los niños/as con lactancia materna exclusiva en la fecha de la recolección de datos tenía menos de 6 meses o 6 meses. El caldo de fideo y de arroz ocupa el primer y segundo lugar respectivamente como primer alimento introducido por las madres. Los alimentos que deberían ser introducidos inicialmente como el puré de frutas y verduras ocupan un pequeño porcentaje en la lista. Otros alimentos que se tendrían que introducir después de los 9 meses, de preferencia a los un año, como por ejemplo el caldo de poroto, caldo de pescado, leche de vaca y huevo son los primeros alimentos que se introducen.

El 64% de los niños se alimentan tres veces al día, el 20,5% menos de tres veces y 15,5% más de tres veces al día.

El 69,5% de los niños/as de las comunidades indígenas de Yby-Yaú y Azote’y consumen proteínas menos de tres veces por semana; 27,3% consumen de tres a cinco veces por semana los diferentes tipos de proteínas, teniendo predominancia el consumo de pez. Solo 3,2% consume proteínas más de 5 veces. Las comunidades que viven cerca de bosques, ríos o arroyos son los que más consumen proteínas.

Los carbohidratos son la principal fuente de alimentación de los niños y niñas de las comunidades indígenas de Yby-Yaú y Azote’y. Eso se debe a que son los alimentos de más fácil adquisición y los más accesibles económicamente hablando.

En las comunidades indígenas el consumo de verduras y hortalizas es escaso. Las comunidades que más consumen verduras y hortalizas son Mberyo Jaguarymi y Takuaritiy.

Este trabajo refleja la realidad de las comunidades indígenas de los dos distritos observados, no podemos extrapolar estas mismas cifras en el departamento de Concepción, o en todo el país por el tamaño de la muestra, es necesario hacer nuevos estudios con un tamaño muestral mayor para obtener una visión del verdadero estado nutricional de los niños indígenas. El porcentaje de desnutrición es alto, pero se trata de distritos con no muchos recursos económicos, donde la pobreza es una realidad aún en otros estratos sociales.

La realidad indígena es un problema real, y una manera de reducir estas cifras es enseñándoles a producir su propio alimento. Para ello no debemos luchar con su cultura ni intentar hacerlos ver el mundo a través de nuestra realidad, sino dentro de sus costumbres encontrar formas de que ellos tengan condiciones de un mejor porvenir.

 

AGRADECIMIENTOS

]]> +A las comunidades indígenas que participaron en nuestro estudio, los profesionales de blanco del Centro de Salud de Yby-Yau y Azote’y, a la Comunidad de Hermanas de la Divina Providencia de Yby-Yau, a la Dra. Blanca Villalba y a la Dra. Gloria Martínez.

 

REFERENCIAS

1. Monteiro CA. Fome, desnutrição e pobreza: além da semântica. Saúde Soc. 2003;12(1):7-11.         [ Links ]

2. Viñas MR, Frías ML, Verdú JM. Entorno social y desnutrición en niños de 1 a 4 años de comunidades indígenas de México. Rev Esp Nutr Comunitaria. 2005;11(3):128-34.         [ Links ]

3. INEC. Ecuador: 40,1% de indígenas con desnutrición crónica. Ecuador: Estudio del INEC; 2009.         [ Links ]

4. Chumpitaz D, Russo A, Del NogaL B, Case C, Lares M. Evaluación nutricional de la población infantil warao en la comunidad de Yakariyene, estado Delta Amacuro, agosto-octubre 2004. AVFT. 2006;25(1):26-31.         [ Links ]

5. Kuhl AM, Tittoni C, Leite MS, Bastos JL. Perfil Nutricional e fatores associados à ocorrência de desnutrição entre crianças indígenas Kaingáng da Terra Indígena de Mangueirinha, Paraná, Brasil. Cad Saúde Pública. 2009;25(2):409-420.         [ Links ]

6. Orellana JD, Coimbra Jr. CE, Lourenço AE, Santos RV. Estado nutricional e anemia en crianças Suruí, Amazônia, Brasil. J Pediatr (Rio J). 2006;82(5):383-88.         [ Links ]

7. Organización de las Naciones Unidas. Foro permanente para las cuestiones indígenas: informe sobre el quinto período de sesiones (15 a 26 de mayo de 2006). Nueva York: Naciones Unidas; 2006.         [ Links ]

8. Centro de Salud de Yby-Yau. Censo local de las comunidades indígenas. Yby-Yau; 2010.         [ Links ]

9. Chase-Sardi M, Brun A, Enciso MA. Situación sociocultural, económica, jurídico-político actual de las comunidades indígenas del Paraguay. Asunción: UCA; 1989.         [ Links ]

10. Meliá B, Grunberg G, Grunberg F. Paî -Tavyterã: etnografía guaraní del Paraguay contemporáneo. 2da. ed. Asunción: Centro de Estudios Antropólogicos de la Universidad Católica; 2008.         [ Links ]

11. FAO. Panorama de la seguridad alimentaria y nutricional en América Latina y el Caribe 2013. FAO; 2014.         [ Links ]

12. Masi C, Sánchez Bernal S, Dallman D, Rodas A, Morinigo G, Mendoza L. Perfil nutricional de niños menores de 5 años que acuden a servicios públicos de salud en el Paraguay. Asunción: INAN; 2010.         [ Links ]

]]> + + + + + + + + + + + +2003 +12 +1 +1 +7-11 + + + + + + + + + + + + + + + + + + + +2005 +11 +3 +3 +128-34 + + + +INEC + +2009 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +2006 +25 +1 +1 +26-31 + + + + + + + + + + + + + + + + + + + + + + + +2009 +25 +2 +2 +409-420 + + + + + + + + + + + + + + + + + + + + + + + +2006 +82 +5 +5 +383-88 + + + +Organización de las Naciones Unidas + +2006 + + + + + + +Centro de Salud de Yby-Yau + +2010 + + + + + + + + + + + + + + + + + + + + +1989 + + + + + + + + + + + + + + + + + + + + + +2008 + + + + + + +FAO + +2014 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +2010 + + + + + + +
diff --git a/python/tests/test_xml.py b/python/tests/test_xml.py new file mode 100644 index 0000000..a996c56 --- /dev/null +++ b/python/tests/test_xml.py @@ -0,0 +1,18 @@ + +import pytest + +from sandcrawler.xml import xml_reserialize + + +def test_xml_reserialize() -> None: + + with open('tests/files/scielo_article.jats.xml', 'rb') as f: + raw_xml = f.read() + + assert b'encoding="ISO-8859-1"' in raw_xml + raw_xml.decode("ISO-8859-1") + with pytest.raises(UnicodeDecodeError): + raw_xml.decode("utf-8") + + str_xml = xml_reserialize(raw_xml) + assert 'encoding="UTF-8"' in str_xml -- cgit v1.2.3 From 47ca1a273912c8836630b0930b71a4e66fd2c85b Mon Sep 17 00:00:00 2001 From: Bryan Newbold Date: Fri, 6 Nov 2020 18:25:55 -0800 Subject: html: update proposal (docs) --- proposals/20201026_html_ingest.md | 68 ++++++++++++++++++++++++++++----------- 1 file changed, 49 insertions(+), 19 deletions(-) (limited to 'proposals') diff --git a/proposals/20201026_html_ingest.md b/proposals/20201026_html_ingest.md index 90bc6e5..c06f180 100644 --- a/proposals/20201026_html_ingest.md +++ b/proposals/20201026_html_ingest.md @@ -22,6 +22,7 @@ Example HTML articles to start testing: - first mondays (OJS): - d-lib: + ## Ingest Process Follow base URL to terminal document, which is assumed to be a status=200 HTML document. @@ -32,44 +33,65 @@ Extract list of sub-resources. Filter out unwanted (eg favicon, analytics, unnecessary), apply a sanity limit. Convert to fully qualified URLs. For each sub-resource, fetch down to the terminal resource, and compute hashes/metadata. -TODO: +Open questions: + - will probably want to parallelize sub-resource fetching. async? - behavior when failure fetching sub-resources ## Ingest Result Schema -JSON should - -The minimum that could be persisted for later table lookup are: - -- (url, datetime): CDX table -- sha1hex: `file_meta` table - -Probably makes most sense to have all this end up in a large JSON object though. +JSON should be basically compatible with existing `ingest_file_result` objects, +with some new sub-objects. + +Overall object (`IngestWebResult`): + +- `status`: str +- `hit`: bool +- `error_message`: optional, if an error +- `hops`: optional, array of URLs +- `cdx`: optional; single CDX row of primary HTML document +- `terminal`: optional; same as ingest result + - `terminal_url` + - `terminal_dt` + - `terminal_status_code` + - `terminal_sha1hex` +- `request`: optional but usually present; ingest request object, verbatim +- `file_meta`: optional; file metadata about primary HTML document +- `html_biblio`: optional; extracted biblio metadata from primary HTML document +- `scope`: optional; detected/guessed scope (fulltext, etc) +- `html_resources`: optional; array of sub-resources. primary HTML is not included +- `html_body`: optional; just the status code and some metadata is passed through; + actual document would go through a different KafkaTopic + - `status`: str + - `agent`: str, eg "trafilatura/0.4" + - `tei_xml`: optional, str + - `word_count`: optional, str ## New SQL Tables `html_meta` - surt, - timestamp (str?) - primary key: (surt, timestamp) - sha1hex (indexed) - updated + sha1hex (primary key) + updated (of SQL row) status + scope has_teixml + has_thumbnail + word_count (from teixml fulltext) biblio (JSON) resources (JSON) Also writes to `ingest_file_result`, `file_meta`, and `cdx`, all only for the base HTML document. + ## Fatcat API Wants Would be nice to have lookup by SURT+timestamp, and/or by sha1hex of terminal base file. `hide` option for cdx rows; also for fileset equivalent. + ## New Workers Could reuse existing worker, have code branch depending on type of ingest. @@ -78,7 +100,7 @@ ingest file worker => same as existing worker, because could be calling SPN persist result - => same as existing worker + => same as existing worker; adds persisting various HTML metadata persist html text => talks to seaweedfs @@ -89,9 +111,17 @@ persist html text HTML ingest result topic (webcapture-ish) sandcrawler-ENV.html-teixml - JSON - same as other fulltext topics + JSON wrapping TEI-XML (same as other fulltext topics) + key compaction and content compression enabled + +JSON schema: + +- `key` and `sha1hex`: str; used as kafka key +- `status`: str +- `tei_xml`: str, optional +- `word_count`: int, optional + +## New S3/SeaweedFS Content -## TODO +`sandcrawler` bucket, `html` folder, `.tei.xml` suffix. -- refactor ingest worker to be more general -- cgit v1.2.3