InformàticaBases de dades

Treballant amb el text. Com es determina la codificació d'un fitxer

Vegem quina és la codificació de l' arxiu. En termes simples, la codificació és un conjunt de caràcters de bytes que corresponen a l'alfabet alfabètic d'un idioma concret. Per a cada idioma, hi ha una seqüència específica d'aquests signes de codificació. De vegades és necessari determinar la codificació. Tingueu en compte això per obtenir un exemple de document de text.

El que necessiteu

Un conjunt de certes eines de programari. Per començar, hi ha prou aplicacions com Word , KWrite, Firefox i l'eina de reconeixement - enca .

Podeu determinar la codificació del fitxer mitjançant l'editor universal de Microsoft Word. Abans, cal instal·lar des del conjunt d'Office. Quan s'instal·la l'aplicació i es pot obrir amb la icona en forma d'un caràcter W a l'escriptori, aneu al pas següent.

La següent etapa de reconeixement

A través de la barra de navegació de l'aplicació, obriu "Fitxer" - "obriu" els elements un a la vegada. El mateix es pot fer utilitzant la combinació del teclat Ctrl + O.

A continuació, al quadre de diàleg, seleccioneu el directori desitjat i, de fet, el fitxer per llegir. Després de seleccionar-la amb el ratolí, premeu el botó "obrir".

Quan el fitxer té un conjunt de coincidències no CP1251 , l'aplicació intenta determinar la codificació per si mateixa. Es mostrarà una llista de coincidències possibles. En els conjunts de caràcters proposats al costat dret de la llista, seleccioneu una de les codificacions. Si l'elecció es fa correctament, el text reconegut es mostrarà a l'element "sample".

Com es determina la codificació amb KWrite

A més del preprocessador per al processament de textos, Word, hi ha altres serveis funcionals. Un d'ells és KWrite (un analògic per a sistemes Unix). Perquè no us confonguis, anotaré els punts de la tasca "per determinar la codificació del document a KWrite".

  1. S'està carregant un fitxer .txt a l'aplicació.
  2. Torneu a provar les codificacions fins que un d'ells sigui adequat.
  3. Per realitzar el pas 2, aneu a l'opció d'eines del menú de codificació.

Navegador Mozilla Firefox, l'objectiu és el mateix: determinar la codificació

El principi és el mateix que en els serveis públics per treballar amb el text. Executa el navegador instal·lat per a l'execució i, si no està instal·lat, descarregueu l'instal·lador des de mozilla.org.

A continuació, a la finestra oberta del programa, heu d'obrir un document de text a través del menú "Fitxer", el submenú "Obrir el fitxer". Si el fitxer seleccionat es mostra sense distorsió i el text és llegible, no és difícil determinar la codificació.

Per fer-ho, aneu a "Veure" - "codificació", hi ha diversos conjunts de caràcters que es mostren, i un d'ells, al costat del qual hi ha una "marca", i hi ha una codificació definida pel navegador.

Si el text no es reconeix correctament, seleccioneu la subsecció "addicional", experimenta-hi amb codificacions o seleccioneu el valor "auto".

Programari especialitzat: treballa amb enca

També hi ha diverses eines electròniques auxiliars, que permeten determinar la codificació del text sense format.

Per a aquells que estan acostumats a treballar sota Unix, la utilitat d'Enca és adequada. Es pot instal·lar mitjançant el servei "Administrador de paquets". Després d'haver trobat la categoria disponible de paquets, podeu començar a instal·lar el programari.

Per llistar els idiomes de reconeixement, executeu l'ordre enca -list languages amb el terminal.

Si voleu determinar la codificació d'un fitxer de text després de la clau (g), introduïu el seu nom i, després de l'opció (L), de la mateixa manera, introduïu el llenguatge de reconeixement:

Enca -L russian -g /home/vic/temp/myfile.txt.

Per resumir el que s'ha dit sobre la codificació

Crec que les utilitats anteriors proporcionaran a l'usuari un conjunt suficient d'eines per a la descodificació de documents de text.

Fins ara, de fet, es tracta de reconèixer la codificació. Per a propòsits estàndard, crec que el programari especificat és prou adequat. Hi ha mètodes de definició més especialitzats, però la seva consideració està fora de l'abast d'aquest article.

Per a Microsoft Word, la font de reconeixement pot ser un text simple o un document amb format complex.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ca.delachieve.com. Theme powered by WordPress.