Ingest/Indexierung


Die Aufnahme eines Projektes in den Wissensspeicher verläuft in vier Schritten:

  1. Kommunikation mit den Wissensspeicher-AdministratorInnen : Hier wird geklärt, ob das aufzunehmende Projekt die Standards des Wissensspeichers erfüllt
  2. In Zusammenarbeit mit dem Wissensspeicher werden Metadaten für das Projekt, die Sammlung und/oder die Ressource(n) angelegt. Die Qualitätssicherung bedingt ein Mindestmaß an Metadaten (s.u.) zur Funktionalität der gruppierten Suche, der Facettierung und Kartenvisualisierung
  3. Das Projekt stellt die Daten entweder über eine URL, eine Schnittstelle, oder ein Dateiverzeichnis bereit
  4. Im nächsten Schritt erfolgt die Integration des Projektes durch WSP-AdministratorInnen

Mindesanforderungen an ein Projekt bzw. eine Sammlung

Der Wissensspeicher unterstützt die meisten gängigen Dateiformate und Metadatenschemata. Folgende Anforderungen sollten erfüllt sein, damit die Daten in den Wissensspeicher aufgenommen werden können - der Wissensspeicher bzw. TELOTA bietet Unterstützung bei der Klärung der Punkte an:

  1. Die Volltext- und Metadaten müssen in Formaten vorliegen, die von den vorhandenen Parsern des Wissensspeichers verarbeitet werden können. Zu den möglichen Daten gehören PDF, html-Webseiten, XML, TEI, doc/docx, SQL, db_eXist, Mysql, OAI und OAI-dbrecord
  2. Die Ressourcen müssen auf einer Webseite, in einem Dateiverzeichnis, via Schnittstelle, in einer Datenbank, als Dump, oder auf dem edoc-Server zur Verfügung stehen.
  3. Die Rechtevergabe bzw. Lizenzierung der Daten sollte feststehen

Beispiel


Datenbank-Sammlungen per XML-Datendateien bereitstellen

Projekte können dem Wissensspeicher Daten aus DB-Sammlungen per XML-Datendateien bereitstellen. Die XML-Datendateien enthalten die Metadaten-Records der Ressourcen der DB-Sammlung. Folgende Felder werden (pro Record) unterstützt:

  • id (Pflichtfeld): id der Ressource
  • title (Pflichtfeld): Titel der Ressource
  • creator: Autor(en) der Ressource
  • abstract: Volltext der Ressource
  • subject (mehrfach möglich): subjects der Ressource
  • date: Erscheinungsdatum der Ressource (im Format xs:date, z.B. "1968-09-24")
  • language: Sprachkürzel für die Ressource (3er Kürzel aus ISO 639, z.B. "ger")
  • publisher: Herausgeber der Ressource
  • rights: Copyright-Angabe über die Ressource
  • extent: Umfang der Ressource (positive Integer-Zahl, z.B. "69" für 69 Seiten)

Datenbank-Sammlungen in den Projekten

Sobald das Projekt dem Wissensspeicher die öffentlich zugreifbare URL der XML-Datendatei mitgeteilt hat, werden die Daten in regelmäßigen Abständen geharvestet und in den zugehörigen Projekt-Datenbestand des Wissensspeichers übernommen.

XSD-Schema für die XML-Datendateien

Download: wsp-schema-harvesting.xsd

<?xml version="1.0"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">
  <xs:element name="records">
    <xs:complexType>
      <xs:sequence>
        <xs:element name="record" minOccurs="1" maxOccurs="unbounded">
          <xs:complexType>
            <xs:sequence>
              <xs:element name="id" type="xs:string" minOccurs="1" maxOccurs="1"/>
              <xs:element name="title" type="xs:string" minOccurs="1" maxOccurs="1"/>
              <xs:element name="creator" type="xs:string" minOccurs="0" maxOccurs="unbounded"/>
              <xs:element name="abstract" type="xs:string" minOccurs="0" maxOccurs="1"/>
              <xs:element name="subject" type="xs:string" minOccurs="0" maxOccurs="unbounded"/>
              <xs:element name="date" type="xs:date" minOccurs="0" maxOccurs="1"/>
              <xs:element name="language" type="xs:string" minOccurs="0" maxOccurs="1"/>
              <xs:element name="publisher" type="xs:string" minOccurs="0" maxOccurs="1"/>
              <xs:element name="rights" type="xs:string" minOccurs="0" maxOccurs="1"/>
              <xs:element name="extent" type="xs:positiveInteger" minOccurs="0" maxOccurs="1"/>
            </xs:sequence>
          </xs:complexType>
        </xs:element>
      </xs:sequence>
    </xs:complexType>
  </xs:element>
</xs:schema>

Beispiel einer XML-Datendatei: Daten aus: http://telota.bbaw.de/glossga/sources.php

XML-Datendatei (Auszug): enthält die Metadaten-Records der Ressourcen

<?xml version="1.0" encoding="utf-8" ?>
<records>
  <record>
    <id>100001</id>
    <title>Aelian. Tact.</title>
    <abstract>**Aelian. Tact.**  = Aelianus: Tactica theoria. – Aelianus’ Theorie der Taktik. Ed. H. Köchly et W. Rustow. Leipzig 1855. (Griechische Kriegsschriftsteller II, 1.) — Ref. to | page | a/b | line | .
    
    &gt; Fī l-Ṣufūf wa-asmāʾihā wa-aʿdādihā ʿalā qawl al-mutaqaddimīn.
    
    Wüstenfeld, Ferdinand: Die arabische Übersetzung der Taktik des Aelianus. In: Ferdinand Wüstenfeld: Das Heerwesen der Muhammedaner nach dem Arabischen. Göttingen 1880. (Abhandlungen der Königlichen Gesellschaft der Wissenschaften zu Göttingen: Historisch-philologische Classe; 26. 1880, Abh. 1 und 2.) Repr. in: Ferdinand Wüstenfeld: Schriften zur arabisch-islamischen Geschichte. Vol. II. Hrsg. von Fuat Sezgin. Frankfurt a.M. 1986, pp. 45–109. — Ref. to | page | . | line | of the original printing (separate folios of the Arabic text; for the reprint, add 77).
    
    Dain = Alphonse Dain: Histoire du texte d’Élien le tacticien des origines à la fin du moyen âge. Paris 1946.</abstract>
  </record>
  <record>
    <id>100002</id>
    <title>Alex. An. mant. [Lib. arb.]</title>
    <abstract>**Alex. An. mant. [Lib. arb.]**  = Alexander Aphrodisiensis: De anima cum mantissa. Ed. Ivo Bruns. Berolini 1887. (Supplementum Aristotelicum. 2,1.)
    
    ▪  Mantissa, pp. 172.16–175.32 [De libero arbitrio] — Ref. to | page | . | line |.= R.W. Sharples: Alexander of Aphrodisias on Fate. London 1983, pp. 214–7; adnot. pp. 273–4. — Ref. to | page | . | line | .
    
    &gt; Maqāla fī l-Istiṭāʿa.
    
    Ruland, Hans-Jochen: Die arabischen Fassungen von zwei Schriften des Alexander von Aphrodisias: Über die Vorsehung und Über das liberum arbitrium. Saarbrücken 1976. (Phil. Diss. Saar¬brücken, 1975.) — Ref. to | page | . | line | .

    Badawī = Badawī, ʿAbd-al-Raḥmān [ed.]: Commentaires sur Aristote perdus en grec et autres épîtres. Beyrouth 1971, pp. 80–82.</abstract>
  </record>
  [...]
  [...]
</records>

nach Oben