uni2ascii en ascii2uni zetten tussen UTF-8 Unicode en elk van een verscheidenheid van de 7-bit ASCII-equivalenten, waaronder: hexadecimale en decimale HTML numerieke karakter referenties, u-ontsnappingen, standaard hexadecimale, en ruwe hexadecimale.
Dergelijke ASCII-equivalenten zijn handig wanneer waaronder Unicode tekst in het programma van de bron, bij het invoeren van tekst in webpagina's die de Unicode-tekenset kan omgaan, maar zijn niet 8-bit veilig, en bij het oplossen.
De Unicode ontsnapt beschikbaar zijn:
- HTML hexadecimale numerieke karakter referenties (bijvoorbeeld)
- HTML decimale numerieke karakter referenties (bijvoorbeeld ȳ)
- U-escapes, zoals gebruikt in Python (b.v. u00E9)
- U-escapes in de BMP- en U-ontsnapt voorbij de BMP, bv u00E9 maar U00010024.
- U -escapes (bijv U 00E9)
- U ontsnapt (b.v. U00E9)
- U-ontsnappingen (bijv u00E9)
- U-ontsnappingen binnen punthaken (bijv.)
- X-ontsnappingen (bijv x00E9)
- X-ontsnappingen met beugels (bijv x 00E9 {})
- Standard hexadecimale (bijv 0x00E9)
- Raw hexadecimale (bijv. 00E9)
uni2ascii accepteert een command line flag bepalen of hoofdletters AF of kleine letters af te genereren als hexadecimale cijfers omdat sommige sommige programma's accepteren alleen een of het ander. ascii2uni accepteert niet.
In het geval van uni2ascii standaard worden alleen tekens buiten het ASCII-bereik omgezet. Zelfs als ASCII-tekens ook worden omgezet, worden nieuwe regels behouden, tenzij hun bekering expliciet wordt gevraagd. Spaties zijn ook bewaard, tenzij conversie expliciet wordt gevraagd. Voor de drie niet-ASCII spaties (Ethiopic woordruimte, Ogham ruimte en ideografische ruimte) indien er ruimte tekens worden geconverteerd, worden deze vervangen door ASCII spatie (0x20) teneinde de uitvoer binnen de 7- houden bit ASCII range.
Dit pakket bevat vier programma's. Het hoofdprogramma is uni2ascii. Het is geschreven in C en moet worden opgesteld. uni2html.py is de voorloper van uni2ascii. Zoals het is geschreven in Python, is het niet hoeft te worden gecompileerd en moet draaien op zowat elke huidige computer. uni2ascii anderszins superieur doordat:
- Het genereert een breder scala van output formaten.
- Het is ongeveer 20 keer sneller.
- Het behandelt inbreng in de volledige 32-bits Unicode bereik. Daarentegen uni2html alleen de handvatten
Basic Multilingual Plane (Plane 0), omdat op dit moment Python vertegenwoordigt Unicode gecodeerde tekst intern gebruik van 16-bits gehele getallen. Als je tekst in, zeg, Lineair B of Ugaritisch hebt, uni2ascii nodig.
Het doet een betere baan van de rapportage fouten. Als er een fout in de ingang, ontmoet zoals mal gevormde UTF-8, rapporteert de locatie van de fout zowel wat het aantal tekens vanaf het begin van het bestand (beginnend bij 0) als wat betreft de bytetelling vanaf het begin van het bestand (ook vanaf 0). (Karakter telt en bytes zijn over het algemeen niet hetzelfde omdat een UTF-8 gecodeerde tekens inneemt van een tot vier bytes.) Alleen de Python versie van de verslagen van de telling karakter. uni2ascii geeft ook informatie over de aard van de fout.
Het derde programma, ascii2uni, is het omgekeerde van uni2ascii. Het accepteert tekst met een verscheidenheid van ASCII voorstellingen van Unicode-tekens en genereert UTF-8 Unicode.
Het vierde programma, ascii2uni.py, leest 7-bits ASCII bevattende ontsnapte Unicode-u, zoals gebruikt in Python en Tcl, en zet het om UTF-8 Unicode. Het is het oorspronkelijke programma waarvan ascii2uni is een generalisatie
Wat is nieuw in deze release:.
- Fixed bug in uni2ascii waarbij in sommige gevallen de telling substitutie te hoog was, de vaststelling van Debian bug # 626268.
- Patched de situatie in NetBSD waarin getline ontbreekt verwerken.
- Verduidelijkt semantiek van pure optie als het omzetten van personages in ascii waaier anders dan de ruimte en de nieuwe regel. Fixed bug waarbij deze werd niet correct geïmplementeerd voor types UTF8.
Wat is nieuw in versie 4.17:
- Toegevoegd aan de volgende omzettingen tot dichtstbijzijnde ascii gelijkwaardig uni2ascii: U 2022 kogel 'o', U + 00B7 middelste punt tot periode, U + 0085 volgende regel te Newline, U + 2028 lijn separator om nieuwe regel.
Wat is nieuw in versie 4.16:
- De Q-formaat werkt weer in ascii2uni .
- Toegevoegd U + 2033 DOUBLE PRIME om de tekens geconverteerd naar hun naaste ascii-equivalent onder het gebruik van de e-indeling in uni2ascii.
Wat is nieuw in versie 4.15:
- Hernoemd endian.h om u2a_endian.h om conflicten met elimineren externe endian.h.
- Verwijderd kopie van GNU getline uit ascii2uni.c zoals het is standaard vanaf POSIX2008.
Wat is nieuw in versie 4.14:
- Fixed a bug die bemoeid met het gebruik van de Q-formaat in uni2ascii.
- Fixed bug waarbij ascification van U + 2502 en U + 2503 dubbele aanhalingstekens toegevoegd aan de uitgang.
- Fixed a bug waar -een S optie gegenereerd een & quot; Oude zoveel chars & quot; lijn voor elk karakter te wijten aan het verlaten van in debugging code.
Wat is nieuw in versie 4.13:
- Fixed bug die ervoor zorgde dat overmatige aantal tekens veranderd naar ASCII naar worden gemeld.
Wat is nieuw in versie 4.12:
- Beide programma's nu toestaan dat de naam van input file te worden vermeld op de opdrachtregel zonder omleiding.
Wat is nieuw in versie 4.11:
- Deze versie voegt ondersteuning toe voor de & lt; XX & gt; & lt; XX & gt; en% uXXXX formaten.
Wat is nieuw in versie 4.10:
- Deze versie lost een bug die de Y-argument aan de -a vlag van ascii2uni een no-op en corrigeert de man pagina's en hulp voor de Y en Q argumenten om de -a vlag voor beide programma's.
- Het argument Y is nu een fout voor uni2ascii.
- De versie informatie en actie zijn meer informatief.
Samenvattingen
Reacties niet gevonden