Ayuda:Página Básica
De WikiMadoz
Una Página Básica es aquella que contiene, como mínimo:
- La transcripción literal del Diccionario Madoz, revisada (eliminados los errores del OCR)
- Las categorías a las que pertenece la página
Para convertir un borrador en una página básica, por tanto, lo que hay que hacer es eliminar los errores del OCR y añadir las categorías.
Contenido |
Revisión de errores del OCR
Al copiar y pegar el contenido del Diccionario Madoz lo que obtenemos es el resultado de la transcripción realizada automáticamente por un programa informático de OCR. El texto, por tanto, contendrá errores variados.
Para revisarlos, debemos leer cuidadosamente el texto original, que tenemos en el pdf, y compararlo con el texto pegado en el WikiMadoz, editando en este último todos los errores que detectemos. Ejemplos de errores posibles que el OCR puede cometer:
- Confundir caracteres:
- Cambiar una l (letra ele) por un 1 (número uno) (o viceversa)
- Cambiar un 4 (número cuatro) por un 1 (número uno) (o viceversa)
- Cambiar una c (letra ce) con una e (letra e)
- Cambiar una m (letra eme) por las letras ni
- Otros muchos similares
- Omitir o añadir espacios entre palabras
- "Corregir" errores de acentuación. El OCR reconoce palabras concretas y en algunos casos añade tildes que no aparecen en el original. Por ejemplo, en el texto que aparece más abajo, el OCR había añadido la tilde a las palabras Leon, ventilacion, advocacion y algun.
Además el OCR elimina todas las cursivas.
Resultado de la revisión: el texto original del Diccionario Madoz
El objetivo de la revisión del OCR es que el texto que aparece en el WikiMadoz sea exactamente idéntico al que aparece en el Diccionario Madoz. Por lo tanto, sólo debemos cambiar las cosas que el OCR ha alterado respecto al original, sin modificar nada de éste (esto se puede hacer en una pagina mejorada, en la que además del texto literal se incluye el texto actualizado).
De esta forma, en la transcripción literal:
- Se incluye al comienzo, como en el Diccionario, el nombre de la entrada, en mayúsculas (i.e.,: SAN AMANS DE PRADOS: ald. en la prov., aud.terr., c.g.; en vez de empezar ald. en la prov., aud.terr., c.g.)
- deben dejarse todas las abreviaturas, mayúsculas, minúsculas, cursivas como en el original;
- deben dejarse todas las tildes como en el original, aunque no sigan la norma ortográfica actual (por ejemplo, la preposición a aparece con tilde á, León se escribe sin tilde, 'Leon');
- deben dejarse también como en el original todas las demás palabras que estén escritas con grafía diferente a la actual (por ejemplo, Vierzo, en lugar de Bierzo, monge en lugar de monje);
- deben dejarse las comas, utilizadas como separadoras de los miles en los números, en lugar de los puntos que usamos actualmente;
- los poemas e inscripciones se escriben poniendo por delante, como en una sangría, cinco espacios en blanco. Se verán así:
Texto de prueba, con cinco espacios en blanco dejados al principio
Hay que dejar los cinco espacios en cada línea
- Si el texto es largo el software que gestiona el WikiMadoz puede tener dificultades para editarlo. Para evitar esto, es conveniente partir el texto en secciones, sin introducir títulos ni palabras que no estén en el original. Simplemente escribiremos una linea con los siguientes caracteres
== ==
Esto creará una sección sin título dentro del artículo, lo que facilita la edición, que se puede hacer sección por sección
Al acabar de revisar el texto del OCR podemos cambiar el encabezamiento del borrador por este otro
== Texto literal del Madoz, Vol. x, p. xxx == Que se verá así:
Texto literal del Madoz, Vol. x, p. xxx
Donde las x se sustituyen por el número del volumen y el número de página donde estaba el texto original. El número de página lo podemos ver en la cabecera de la imagen de la página original. El número del volumen lo podemos averiguar en la página Lugares, donde el enlace para cada archivo pdf lleva una indicación del volumen al que pertenece.
Si el artículo que estamos revisando es largo, y no podemos hacer la revisión en una sola sesión de trabajo, lo que haremos será colocar al comienzo del fragmento que ya hayamos revisado un encabezamiento como el anterior
== Texto literal del Madoz (fragmento revisado)==
Y al terminar el fragmento revisado y comenzar el fragmento no revisado, dejaremos un encabezamiento como este
== Texto literal del Madoz (fragmento no revisado) ==
Adición de categorías
Una categoría es una agrupación de páginas que comparten algún rasgo en común. Por ejemplo, todas las páginas de una provincia, o de una diócesis.
Las categorías facilitan la búsqueda de información dentro del WikiMadoz, permitiendo ver listas de lugares cercanos. Todo artículo del WikiMadoz debe incluirse en al menos una categoría. Cuando se trate de un municipio, se incluirán tres categorías: la provincia, el partido judicial y la diócesis. Esa información la tomaremos del propio texto del Diccionario, que suele empezar cada artículo situando el lugar descrito en esos tres espacios. También se suelen mencionar las capitanías generales y las audiencias territoriales, pero esa información la podemos omitir, porque se deduce de la provincia.
Las categorías se añaden, escribiendo al final del texto, en líneas separadas, códigos como los siguientes:
[[Categoría: Provincia de Barcelona]]
[[Categoría: Partido Judicial de Manresa]]
[[Categoría: Obispado de Vich]]
Cuando se trate de un núcleo de población que forme parte de otro municipio, también debemos incluir una categoría referente al ayuntamiento.
Ejemplo de texto de página básica
Partiendo del mismo texto que usábamos como ejemplo en la página de ayuda sobre el borrador, este sería el contenido de una página básica
== Texto literal del Diccionario Madoz == ARNADELO: l. en la prov. de Leon (21 leg.), partido jud. y abadia ecl. ''nullíus'' de Villafranca del Vierzo ( 2 ) , adm. de rent. de Ponferrada (5), aud. terr. y c. g. de Valladolid, ayunt. de Oencia: SIT. en las márg. del r. Selmo á la falda de 1 montaña con buena ventilacion y CLIMA saludable. Tiene 1 igl. parr. bajo la advocacion de Sta. Maria Magdalena, anejo de la de Sobredo de Aguiar: confina su TÉRM. con los de Cabeza de Campo, Sobrado y Sobredo de Aguiar : en él se encuentran 1 herrería de dominio particular, y 1 puente de madera que facilita el paso del r. arriba mencionado , único que le baña: PROD. centeno , castañas, legumbres y frutas ; cria algun ganado lanar, cabrio y vacuno: POBL. 36 vec, 112 alm.: CONTR. con el ayuntamiento. [[Categoría: Provincia de Leon]] [[Categoría: Partido Judicial de Villafranca del Vierzo]] [[Categoría: Ayuntamiento de Oencia]] [[Categoría: Abadía de Villafranca del Vierzo]]
Hemos corregido varios errores de la transcripción del OCR y hemos añadido las categorías, incluyendo una para el ayuntamiento, y otra, un poco especial, de la Abadía de Villafranca del Vierzo, en sustitución de la del obispado, que en este caso no aparece, ya que al parecer la abadía hacía funciones de obispado.
El texto de esta entrada básica se visualizaría así:
Texto literal del Diccionario Madoz
ARNADELO: l. en la prov. de Leon (21 leg.), partido jud. y abadia ecl. nullíus de Villafranca del Vierzo ( 2 ) , adm. de rent. de Ponferrada (5), aud. terr. y c. g. de Valladolid, ayunt. de Oencia: SIT. en las márg. del r. Selmo á la falda de 1 montaña con buena ventilacion y CLIMA saludable. Tiene 1 igl. parr. bajo la advocacion de Sta. Maria Magdalena, anejo de la de Sobredo de Aguiar: confina su TÉRM. con los de Cabeza de Campo, Sobrado y Sobredo de Aguiar : en él se encuentran 1 herrería de dominio particular, y 1 puente de madera que facilita el paso del r. arriba mencionado , único que le baña: PROD. centeno , castañas, legumbres y frutas ; cria algun ganado lanar, cabrio y vacuno: POBL. 36 vec, 112 alm.: CONTR. con el ayuntamiento.
Categorías: Provincia de Leon | Partido Judicial de Villafranca del Vierzo | Ayuntamiento de Oencia | Abadía de Villafranca del Vierzo
Esta es ya una página básica del WikiMadoz, que contiene el texto completo y correcto de una artículo del diccionario, y las categorías a las que pertenece.
El siguiente paso para hacerla más legible y útil es hacer una página mejorada.
