7 класс. Урок № 28. Оценка количественных параметров текстовых документов

Выполнить до 15:00 23 апреля 2020 г.

ЛекцияЗаданияОтправить задания

Представление текстовой информации в памяти компьютера

Текст состоит из символов — букв, цифр, знаков препинания и т. д., которые человек различает по начертанию. Компьютер раз­личает вводимые символы по их двоичному коду. Вы нажимаете на клавиатуре символьную клавишу, и в компьютер поступает определённая последовательность электрических импульсов разной силы, которую можно представить в виде цепочки из восьми нулей и единиц (двоичного кода).

Мы уже говорили о том, что разрядность двоичного кода i и коли­чество возможных кодовых комбинаций N связаны соотношением: 2′ = N. Восьмиразрядный двоичный код позволяет получить 256 раз­личных кодовых комбинаций: 28 = 256.

С помощью такого количества кодовых комбинаций можно зако­дировать все символы, расположенные на клавиатуре компьюте­ра, — строчные и прописные русские и латинские буквы, цифры, знаки препинания, знаки арифметических операций, скобки и т. д., а также ряд управляющих символов, без которых невозможно созда­ние текстового документа (удаление предыдущего символа, перевод строки, пробел и др.).Соответствие между изображениями символов и кодами символов устанавливается с помощью кодовых таблиц.

Все кодовые таблицы, используемые в любых компьютерах и лю­бых операционных системах, подчиняются международным стандар­там кодирования символов.

Кодовая таблица содержит коды для 256 различных символов, пронумерованных от О до 255. Первые 128 кодов во всех кодовых таб­лицах соответствуют одним и тем же символам:

• коды с номерами от 0 до 32 соответствуют управляющим симво­лам;

• коды с номерами от 33 до 127 соответствуют изображаемым симво­лам — латинским буквам, знакам препинания, цифрам, знакам арифметических операций и т. д.

Эти коды были разработаны в США и получили название ASCII (American St and art Code for Information Interchange — Американ­ский стандартный код для обмена информацией).

В таблице 4.1 представлен фрагмент кодировки ASCII.

Коды с номерами от 128 до 255 используются для кодирования букв национального алфавита, символов национальной валюты и т. п. Поэтому в кодовых таблицах для разных языков одному и тому же коду соответствуют разные символы. Более того, для многих языков

существует несколько вариантов кодовых таблиц (например, для русского языка их около десятка!).

В таблице 4.2 представлены десятичные и двоичные коды не­скольких букв русского алфавита в двух различных кодировках.

Например, последовательности двоичных кодов

11010010 11000101 11001010 11010001 11010010

в кодировке Windows будет соответствовать слово «ТЕКСТ», а в ко­дировке КОИ-8 — бессмысленный набор символов «рейяр».

Как правило, пользователь не должен заботиться о перекодирова­нии текстовых документов, так как это делают специальные про­граммы-конверторы, встроенные в операционную систему и прило­жения.

Восьмиразрядные кодировки обладают одним серьёзным ограни­чением: количество различных кодов символов в этих кодировках недостаточно велико, чтобы можно было одновременно пользоваться более чем двумя языками. Для устранения этого ограничения был разработан новый стандарт кодирования символов, получивший на­звание Unicode. В Unicode каждый символ кодируется шестнадцати­разрядным двоичным кодом. Такое количество разрядов позволяет закодировать 65 536 различных символов:

216 = 65 536.

Первые 128 символов в Unicode совпадают с таблицей ASCII; далее размещены алфавиты всех современных языков, а также все матема­тические и иные научные символьные обозначения. С каждым годом Unicode получает всё более широкое распространение.

В Единой коллекции цифровых образовательных ресурсов (http://sc.edu.ru) размещены анимации «Клавиатура ПЭВМ: принципы работы; устройство клавиши» (134923), «Клавиатура ПЭВМ: принципы работы; сканирование клавиш» (135019), «Клавиатура ПЭВМ: формирование кода введенного сим­вола» (134868), которые помогут вам наглядно увидеть, как формируется код символа, введённого с клавиатуры.

В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен: 8 битов (1 байт) — восьмиразрядная кодировка; 16 битов (2 байта) — шестнадцатиразрядная кодировка.

Информационный объём фрагмента текста

Вам известно, что информационный объём сообщения / равен про­изведению количества символов К в сообщении на информационный вес символа

алфавита i: I = К • L.

Информационным объёмом фрагмента текста будем называть ко­личество битов, байтов или производных единиц (килобайтов, мега­байтов и т. д.), необходимых для записи этого фрагмента заранее оговорённым способом двоичного кодирования.

Задача 1. Считая, что каждый символ кодируется одним байтом, определите, чему равен информационный объём следующего высказывания Жан-Жака Руссо:

Тысячи путей ведут к заблуждению, к истине — только один.

Решение. В данном тексте 57 символов (с учётом знаков препина­ния и пробелов). Каждый символ кодируется одним байтом. Следова­тельно, информационный объём всего текста — 57 байтов.

Ответ: 57 байтов.

Задача 2. В кодировке Unicode на каждый символ отводится два байта. Определите информационный объём текста из 24 символов в этой кодировке.

Решение. I = 24 • 2 = 48 байтов.

Ответ: 48 байтов.

Задача 3. Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке, первоначально за­писанного в 8-битовом коде, в 16-битовую кодировку Unicode. При этом информационное сообщение увеличилось на 2048 байтов. Каков был информационный объём сообщения до перекодировки?

Решение. Информационный вес каждого символа в 16-битовой кодировке в два раза больше информационного веса символа в 8-би­товой кодировке. Поэтому при перекодировании исходного блока информации из 8-битовой кодировки в 16-битовую его информацион­ный объём должен был увеличиться вдвое, другими словами, на ве­личину, равную исходному информационному объёму. Следователь­но, информационный объём сообщения до перекодировки составлял 2048 байтов — 2 Кб.

Ответ: 2 Кб.

Задача 4. Выразите в мегабайтах объём текстовой информации в «Современном словаре иностранных слов» из 740 страниц, если на одной странице размещается в среднем 60 строк по 80 символов (включая пробелы). Считайте, что при записи использовался алфа­вит мощностью 256 символов.

Решение. Информационный вес символа алфавита мощностью 256 равен восьми битам (одному байту). Количество символов во всём сло­варе равно 740 80 60 = 3 552 ООО. Следовательно, объём этого текста в байтах равен 3 552 ООО байтов = 3 468,75 Кбайт, примерно 3,39 Мбайт.

Ответ: 3,39 Мбайт.


Задания

Задание 1. Считая, что каждый символ кодируется двумя байтами, определите, чему равен информационный объем следующего предложения:

До середины XIX века территория нынешнего Хабаровска, в соответствии с Нерчинским договором, находилась на нейтральной территории, не разграниченной между Цинской империей и Россией.

Задание 2. Считая, что каждый символ кодируется одним байтом, определите, чему равен информационный объем следующего текста:

28 мая (16 мая по старому стилю) 1858 года был подписан договор(с российской стороны переговоры вел генерал-губернатор Восточной Сибири, граф Н.Н. Муравьев-Амурский), в соответствии с которым весь левый берег Амура переходил во владение Российской империи, правый берег до реки Уссури переходил во владение Китая, а Уссурийский край от впадения Уссури в Амур до моря был объявлен пребывающим «в общем владении» до определения границ.

Задание 3.  Сообщение, информационный объем которого равен 10 Кбайт, занимает 8 страниц по 32 строки, в каждой из которых записано по 60 символов. Сколько символов в алфавите языка, на котором записано это сообщение?

Делаем фото тетради, 1 стр на 1 фото, вертикально.

Фото с выполненным заданием прикрепляем в форму ниже к этой записи. Ниже, пишем Фамилию Имя, прикладываем файл и отправляем. Регистрироваться не обязательно. Можно загружать несколько файлов одновременно.


Отправить задания