- Anlage1: Benutzung von verschiedenen Code-Varianten -
Code-Varianten
Auf den verschiedenen Betriebssystemen werden unterschiedliche Codierungen verwendet. Damit mit dem EDT auch Dateien von anderen Plattformen verarbeitet werden können, ist die sowohl das Anzeigen von anders codierten Dateien als auch die Konvertierung von Daten möglich. Die Code-Beschreibungen sind in der Datei codepage.txt gespeichert. Diese Datei kann jederzeit um weitere Code-Varianten erweitert werden. Die Datei muss jedoch mindestens die vier Codes mit dem Namen ANSI, ASCIIDOS, ASCIIUNIX und EBCDIC enthalten. Es sind max. 16 Codes zulässig. Die max. Länge einer Anweisung beträgt 128 Zeichen.
Folgende Varianten sind in der ausgelieferten Datei enthalten:
UNICODE für alle Plattformen ISO 10646
ANSI für MS-Windows Codepage 1252
ISO8859-1 für alle Plattformen ISO 8859
ASCIIDOS für MS-DOS Codepage 850
ASCIIUNIX für Unix UNIX-Dateien
EBCDIC für BS2000 7-Bit: EDF03IRV
EBCDIC8 für BS2000 8-Bit: CCSN EDF041 / EDF04DR
CP500 für OS/390 (IBM) 8-Bit: Codepage 500
UNICODE
Unicode ist ein internationaler Standard, in dem langfristig für jedes sinntragende Zeichen bzw. Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es, das Problem unterschiedlicher, inkompatibler Codierungen in unterschiedlichen Ländern oder Kulturkreisen zu beseitigen. Herkömmliche Computer-Zeichencodes umfassen einen Zeichenvorrat von entweder 128 (7 Bit) Codepositionen wie der sehr bekannte ASCII-Standard oder 256 (8 Bit) Positionen, wie z. B. ISO 8859-1 (auch als Latin-1 bekannt), wovon nach Abzug der Steuerzeichen 96 Elemente bei ASCII und 192–224 Elemente bei den 8-Bit ISO-Zeichensätzen als Schrift- und Sonderzeichen darstellbar sind. Diese Zeichencodierungen erlauben die gleichzeitige Darstellung nur weniger Sprachen im selben Text.
In Unicode finden Zeichen der wichtigsten ISO-Zeichensätze wie die ISO-Normen der Serie 8859 eine 1:1-Entsprechung (das bedeutet, dass bei einer Konvertierung von ISO zu Unicode und zurück das gleiche Ergebnis herauskommt, mit Ausnahme des EURO-Zeichens, ISO8859-1 = X'80', UNICODE = U'20AC').
ISO 10646 ist die von ISO verwendete praktisch bedeutungsgleiche Bezeichnung des Unicode-Zeichensatzes; er wird dort als Universal Character Set (UCS) bezeichnet.
ANSI (CP 1252)
Windows-1252 CP1252Westeuropäisch (Western European) ist eine 8-Bit-Zeichenkodierung des Microsoft-Betriebssystems Windows, die die meisten westeuropäischen Sprachen unterstützt. Sie baut auf ISO 8859-1 und ISO 8859-15 auf. Sie weicht von ISO-8859-1 im Bereich 80–9F ab, dessen 32 Positionen hier 27 darstellbare Zeichen beinhalten, u. a. die in ISO 8859-15 hinzugekommenen und einige für bessere Typographie notwendige Zeichen.
ISO 8859-1
Der ISO 8859-1 ist eine Erweiterung des ASCII-Codes. Als ASCII-Code wird die US-Variante des 7-bit-Codes gemäß ISO646 bezeichnet. Neben dem internationalen ASCII-Code gibt es noch weitere nationale Varianten des 7-bit-Codes gemäß ISO646.
Die verschiedenen 8-bit-Codes sind in der internationalen Norm ISO 8859 definiert. Sie haben alle in der "linken" (niederwertigen) Hälfte der Codetabelle einen gemeinsamen Teil, analog zu ASCII, in der "rechten„ (höherwertigen) Hälfte unterscheiden sie sich. Einzelne Codes werden zu Gruppen kompatibler Codes zusammengefaßt, die über ihre ISO-Code-Variantennummer identifiziert werden. Folgende Codes sind zurzeit in ISO 8859 als Standard definiert:
– 8859-1 Latin-1 (West- und Nord-Europa)
– 8859-2 Latin-2 (Ost-Europa, ausgenommen Türkei und die Baltischen Staaten)
– 8859-3 Latin-3 (Mittelmeerraum und Süd-Afrika)
– 8859-4 Latin-4 (Skandinavien und die Baltischen Staaten)
– 8859-5 Kyrillisch
– 8859-6 Arabisch
– 8859-7 Griechisch
– 8859-8 Hebräisch
– 8859-9 Latin-5 (Türkei, West-Europa inklusive Skandinavien)
– 8859-10 Latin-6 (Nord-Europa und die Baltischen Staaten)
ASCIIDOS / ASCIIUNIX
Die ASCII-Codierung unterscheidet sich von der ANSI-Codierung hauptsächlich in den Umlauten und Sonderzeichen.
Für ASCII-Zeichensätze finden Sie in der ausgelieferten Datei codepage.txt die Varianten ASCIIDOS, ASCIIDOS2 und ASCIIUNIX.
EBCDIC: 7-bit Code
Als Standard ist im BS2000 der 7-bit-Leitungscode ISO646-IRV und der dazugehörige EBCDIC-Code EBCDIC.DF.03-IRV (CCSN: EDF03IRV) eingestellt. Wenn Sie im 7-bit-Mode arbeiten, verwenden Sie interne Tabellen. Das hat die Vorteile, dass die Arbeit unabhängig von XHCS (Verfügbarkeit, Änderung von Tabellen) ist und volle Kompatibilität mit älteren Versionen der Anwendung besteht.
Das Problem bei dieser Code-Variante besteht darin, dass bestimmte internationale Sonderzeichen und deutsche Umlaute nicht gleichzeitig dargestellt werden können. Dabei geht es um folgende Zeichen:
Deutsche Umlaute: ä  ö  ü  Ä  Ö  Ü  ß
Hexa-Wert FB 4F FD BB BC BD FF
Internationale Zeichen:{  |  }  [  \  ]  ~
Die Code-Variante EBCDIC verwendet die deutsche Variante.
EBCDIC8: 8-bit-Code
Auf der BS2000-Seite wird der Zeichensatz ISO 8859-1 durch den EBCDIC.DF.04-1 dargestellt. Der EBCDIC (Extended Binary Coded Decimal Interchange Code), den BS2000 verwendet, muss so erweitert werden, dass jedes Zeichen ein Gegenstück im entsprechenden ISO 8859-x hat. Da EBCDIC-Codes nicht standardisiert sind, existieren unterschiedliche Zuordnungen zwischen EBCDI- und ISO-Codes.
Der EBCDIC.DF.04-n (CCSN: EDF041) ist eine Erweiterung des EBCDIC.DF.03-IRV (CCSN: EDF03IRV =Internationale Referenz Version).
Für EBCDIC 8-Bit-Zeichensätze finden Sie in der ausgelieferten Datei codepage.txt die Varianten EBCDIC8 (wie EDF041 für BS2000) und CP500 (IBM-Standard).
Weitere Code-Varianten
Durch Erweiterung der Datei codepage.txt können jederzeit weitere Code-Varianten hinzugefügt werden, die dann von den Kommando CODE verarbeitet werden können.