Mon compte

connexion

inscription

   Publicité D▼


 » 
allemand anglais arabe bulgare chinois coréen croate danois espagnol espéranto estonien finnois français grec hébreu hindi hongrois islandais indonésien italien japonais letton lituanien malgache néerlandais norvégien persan polonais portugais roumain russe serbe slovaque slovène suédois tchèque thai turc vietnamien
allemand anglais arabe bulgare chinois coréen croate danois espagnol espéranto estonien finnois français grec hébreu hindi hongrois islandais indonésien italien japonais letton lituanien malgache néerlandais norvégien persan polonais portugais roumain russe serbe slovaque slovène suédois tchèque thai turc vietnamien

Significations et usages de Unicode

Définition

⇨ voir la définition de Wikipedia

   Publicité ▼

Wikipedia

Unicode

Wikipedia

Loikkaa: valikkoon, hakuun

Unicode on ohjelmistotalojen kehittämä laaja merkistöstandardi, joka kattaa suurimman osan maailman kirjoitettujen kielten käyttämistä merkeistä. Unicode määrittelee yksilöivän koodiarvon yli 90 000 erilaiselle kirjoitusmerkille. Sen avulla voidaan esittää lähes kaikki maailman kielten käyttämät merkit. Erikielisiä versioita ohjelmista voidaan toteuttaa samasta lähdekoodista. Useat vanhemmat merkistöt kuten ASCII ja ISO 8859-1 ovat 7- tai 8-bittisiä ja voivat näin määritellä enintään 128 tai 256 eri merkkiä. Unicodessa on yli miljoona mahdollista merkkipaikkaa.

Sisällysluettelo

Unicode-merkistön historia

Maailmassa puhutaan tuhansia kieliä, jotka käyttävät kymmeniä erilaisia kirjoitusjärjestelmiä. Näissä järjestelmissä on kymmeniä tuhansia erilaisia merkkejä ja kunkin kielen kirjoittamiseen tarvitaan merkeistä sille ominainen valikoima.

Ajatus yleismaailmallisesta ja mahdollisimman kattavasta merkistöstä alkoi itää 1980-luvulla useammallakin taholla. Vuonna 1984 ISO ja IEC perustivat yhdessä työryhmän valmistelemaan tällaista merkistöä, joka sai nimekseen ISO/IEC 10646. Ohjelmistoteollisuuden intressiryhmän nimi oli The Unicode Consortium ja se perustettiin 1990. Unicode on saanut enemmän näkyvyyttä kuin ISO, sillä ”virallinen” standardointityö mielletään jähmeäksi ja teollisuuden edustaja Unicode taas dynaamiseksi. Käytännössä kuitenkin ISO/IEC 10646 ja Unicode ovat sama merkistö, sillä ne tekevät merkistötyössä yhteistyötä.

Unicode-standardin versio 3.0 määritteli yksilöivän 16-bittisen koodiarvon 49 194 merkille. Käytössä oleva 65 536 merkin koodiavaruus on jaettu lohkoihin, joihin on ryhmitelty samaan kirjoitusjärjestelmään kuuluvat merkit ja yleiset symbolit. Lohkoihin jäi jonkin verran hukkatilaa, ja vuosien varrella on huomattu tarvittavien merkkien määrän ylittävän kirkkaasti 65 000 merkin rajan. Niinpä Unicodeen on rakennettu laajennusmekanismi, jonka avulla voidaan esittää yli miljoona merkkiä; tätä hyödynnetään Unicoden uusimmissa versioissa.

Unicode-merkistön rakenne

Kartta Unicode-merkistön rakenteesta.

Unicoden merkkiavaruus jakautuu 17 tasoon (engl. plane). Jokainen taso on kooltaan 65 536 merkkipaikkaa, joten mahdollisia merkkipaikkoja on 1 114 112. Ensimmäinen taso on nimeltään Basic Multilingual Plane, ja se sisältää suunnilleen kaikki nykyään puhuttavien kielten kirjoittamiseen tarvittavat merkit. Muut tasot sisältävät toistaiseksi lähinnä historiallisten kirjoitusjärjestelmien merkkejä.

Tasot on jaettu edelleen lohkoiksi, joihin on koottu saman kirjoitusjärjestelmän merkkejä. Esimerkiksi kirjaimet A–Z ovat Latinalainen perusosa -nimisessä lohkossa ja Ä ja Ö kirjaimet sen Latin1-täydennysosassa. Latinalaisia kirjaimia on myös kahdessa muussa täydennysosassa, Latinalaisen merkistön täydennysosa A ja B, sekä lisälaajennusosasta. Usein yhden kirjoitusjärjestelmän merkit on kuitenkin järjestetty yhteen lohkoon.

Unicode-standardin versio 4.1.0 määrittelee yhteensä 97 786 merkkiä ja ohjauskoodia.

Unicode-merkkeihin viitataan yleensä niiden merkkikoodilla. Koodi on muotoa U+xxxx, jossa xxxx on heksadesimaaliluku. Esimerkiksi A-kirjaimen merkkikoodi on U+0041.

Unicoden merkistökoodaukset

Unicode-merkkejä voidaan kirjoittaa tiedostoihin eri tavoin. Unicode-standardi tukee kolmea erilaista koodaustapaa: UTF-8, UTF-16 ja UTF-32.

UTF-8

UTF-8 on Unicoden vaihtelevanpituinen koodaustapa. Sen etuna on osittainen yhteensopivuus vanhempien järjestelmien kanssa, jotka käsittelevät merkkejä kahdeksanbittisinä tavuina. UTF-8 on rakennettu siten, että ASCII-merkistöön kuuluvat merkit (kirjaimet A–Z) säilyvät siinä samoina kuin ASCII:ssa, ja muut merkit koodataan vaihtelevan pituisena oktettijonona.

Koodipaikasta riippuen yksi merkki vie tallennettuna tilaa yhdestä neljään tavua. Tavujen määrä riippuu koodipaikasta seuraavasti:

  • U+0000..U+007F: yksi tavu
  • U+0080..U+07FF: kaksi tavua
  • U+0800..U+FFFF: kolme tavua
  • U+10000..U+10FFFF: neljä tavua

Latin-1-lohkon merkit vievät koodauksessa siten kaksi tavua ja muut Basic Multilingual Plane -tason merkit kolme. Tekstidatan koon lisäys ei siten ole merkittävä ainakaan latinalaisilla kirjaimilla kirjoitetussa tekstissä.

UTF-8:n etuna on että se voidaan helposti automaattisesti tunnistaa, mikä ei ole mahdollista perinteisillä kahdeksanbittisillä merkistöillä. UTF-8 on lisäksi tilaton, päinvastoin kuin Itä-Aasiassa perinteisesti käytetty ISO-2022-koodaus, joten rikkoontuneesta datasta menetetään vain osa, ei koko loppua tekstiä.

UTF-16

UTF-16:ssa yksittäinen merkki tallennetaan yhtenä tai kahtena tavuparina. Ensimmäisellä tasolla olevien merkkien (U+0000..U+FFFF) tallentamiseen riittää yksi tavupari. Muilla 16 tasolla sijaitsevien merkkien (U+10000..U+10FFFF) tallentaminen on hieman monimutkaisempaa, ja siihen tarvitaan kaksi tavuparia.

Ensimmäisen tason ulkopuolisten merkkien koodaamisessa käytetään ns. sijaismerkkejä (engl. surrogate code points). Sijaismerkit sijaitsevat ensimmäisessä tasossa, ja niitä on 2048 kappaletta jaettuna kahteen 1024 merkin ryhmään (high surrogates ja low surrogates). Näistä kahdesta 1024 merkin ryhmästä voidaan muodostaa 1 048 576 (1024 × 1024) kombinaatiota, mikä riittää ylimpien 16 tason merkkien osoittamiseen (16 × 65 536 = 1 048 576).

UTF-16:sta on kolme versiota, joiden erot selittyvät tavujärjestyksen eroilla.UTF-16LE on little endian, eli siinä jokaisen tavuparin vähiten merkitsevä tavu on ensimmäisenä.UTF-16BE on big endian, eli tavuparin eniten merkitsevä tavu on ensimmäisenä.

Lopuksi on olemassa muunnelma, jossa tavujärjestys on jätetty avoimeksi; tässä muunnelmassa tekstin tulisi alkaa koodilla U+FEFF, joka on leveydetön tyhje joka ei salli rivinvaihtoa ympärilleen (engl. zero-width nonbreaking space). Sen tavujärjestyspeilikuva U+FFFE on tulevaisuudessakin takuuvarmasti määrittelemätön merkki, joka on siten laiton Unicodessa. Näin ensimmäisen merkin lukemisen jälkeen tiedetään missä tavujärjestyksessä data on.

UTF-32

Koodaustavoista suoraviivaisin on UTF-32. Siinä jokainen merkki tallennetaan neljän tavun mittaisena.Myös siitä on kolme versiota, UTF-32LE ja UTF-32BE sekä sellainen, jossa käytetään tavujärjestysmerkkiä.

Muut

  • UTF-7 on ehdotus Unicoden koodaamiseen 7-bittisten ASCII-merkistön merkkien avulla. Tarve koodaukselle on kuitenkin ollut vähäistä.
  • Punycode on RFC 3492:ssa määritelty koodaus Unicoden käytölle DNS-nimissä. Sitä käytetään mahdollistamaan skandit web-sivustojen nimissä.

Unicoden käyttö

Ennen Unicoden yleistymistä useimmat käyttöjärjestelmät tallensivat tekstin käyttäen omia ratkaisujaan, jotka eivät olleet keskenään yhteensopivia. Tekstin esittäminen rajoittui lisäksi usein muutamaan kieleen merkistöä kohden. Unicode-tuki Windowseissa yleistyi vasta Windows NT:n ja sittemmin Windows 2000:n myötä, 9x-versiot eivät sitä sisältäneet. Mobiililaitteista sitä tukevat muun muassa Symbian-laitteet.

Käyttöjärjestelmän lisäksi tarvitaan Unicodelle tukia myös ohjelmointikielissä. Perinteisesti C ja C++ ovat tukeneet ainoastaan ASCII-merkistöä tai muutamia käyttöjärjestelmän omia koodisivuja, mutta viime vuosina uusimmat standardit ovat lisänneet myös monitavuiset merkistöt näihin kieliin. Java käyttää kaiken tekstin tallentamiseen sisäisesti pelkästään Unicodea. UTF-8-koodaus on nykyään melko laajassa käytössä, koska se mahdollistaa erikielisten tekstielementtien esiintymisen samalla sivulla.

Nykyään myös vauhdilla yleistyneet Linux ja Windows XP sisältävät Unicode-tuen ja kun Windows-käyttöjärjestelmistä vanhat 9x-pohjaiset järjestelmät jäävät pois käytöstä, Unicoden tulevaisuus näyttää valoisalta. Osa Linux-käyttöjärjestelmien valmistajista asettaa järjestelmän jo oletuksena täyteen Unicode-tilaan (mukaan lukien ohjelmat, tiedostojärjestelmä jne.), ja muissakin siirtymisen voi halutessaan tehdä. Kun mobiililaitteista yhä suurempi osa tulee olemaan älypuhelimia, niin niihinkin on mahdollista sisäänrakentaa monikielinen tuki.

Aiheesta muualla

.

 

Toutes les traductions de Unicode


Contenu de sensagent

  • définitions
  • synonymes
  • antonymes
  • encyclopédie

dictionnaire et traducteur pour sites web

Alexandria

Une fenêtre (pop-into) d'information (contenu principal de Sensagent) est invoquée un double-clic sur n'importe quel mot de votre page web. LA fenêtre fournit des explications et des traductions contextuelles, c'est-à-dire sans obliger votre visiteur à quitter votre page web !

Essayer ici, télécharger le code;

SensagentBox

Avec la boîte de recherches Sensagent, les visiteurs de votre site peuvent également accéder à une information de référence pertinente parmi plus de 5 millions de pages web indexées sur Sensagent.com. Vous pouvez Choisir la taille qui convient le mieux à votre site et adapter la charte graphique.

Solution commerce électronique

Augmenter le contenu de votre site

Ajouter de nouveaux contenus Add à votre site depuis Sensagent par XML.

Parcourir les produits et les annonces

Obtenir des informations en XML pour filtrer le meilleur contenu.

Indexer des images et définir des méta-données

Fixer la signification de chaque méta-donnée (multilingue).


Renseignements suite à un email de description de votre projet.

Jeux de lettres

Les jeux de lettre français sont :
○   Anagrammes
○   jokers, mots-croisés
○   Lettris
○   Boggle.

Lettris

Lettris est un jeu de lettres gravitationnelles proche de Tetris. Chaque lettre qui apparaît descend ; il faut placer les lettres de telle manière que des mots se forment (gauche, droit, haut et bas) et que de la place soit libérée.

boggle

Il s'agit en 3 minutes de trouver le plus grand nombre de mots possibles de trois lettres et plus dans une grille de 16 lettres. Il est aussi possible de jouer avec la grille de 25 cases. Les lettres doivent être adjacentes et les mots les plus longs sont les meilleurs. Participer au concours et enregistrer votre nom dans la liste de meilleurs joueurs ! Jouer

Dictionnaire de la langue française
Principales Références

La plupart des définitions du français sont proposées par SenseGates et comportent un approfondissement avec Littré et plusieurs auteurs techniques spécialisés.
Le dictionnaire des synonymes est surtout dérivé du dictionnaire intégral (TID).
L'encyclopédie française bénéficie de la licence Wikipedia (GNU).

Copyright

Les jeux de lettres anagramme, mot-croisé, joker, Lettris et Boggle sont proposés par Memodata.
Le service web Alexandria est motorisé par Memodata pour faciliter les recherches sur Ebay.
La SensagentBox est offerte par sensAgent.

Traduction

Changer la langue cible pour obtenir des traductions.
Astuce: parcourir les champs sémantiques du dictionnaire analogique en plusieurs langues pour mieux apprendre avec sensagent.

 

8664 visiteurs en ligne

calculé en 0,047s


Je voudrais signaler :
section :
une faute d'orthographe ou de grammaire
un contenu abusif (raciste, pornographique, diffamatoire)
une violation de copyright
une erreur
un manque
autre
merci de préciser :