Состав языка с выражения операции
Обновлено: 22.12.2024
Презентацию к данной лекции Вы можете скачать здесь.
Алфавит и лексемы
- буквы (латинские и национальных алфавитов) и символ подчеркивания ( _ ), который употребляется наряду с буквами;
- цифры ;
- специальные символы, например + , * , < и & ;
- пробельные символы (пробел и символы табуляции);
- символы перевода строки.
Из символов составляются более крупные строительные блоки: лексемы, директивы препроцессора и комментарии.
Лексема (token) — это минимальная единица языка, имеющая самостоятельный смысл. Существуют следующие виды лексем:
- имена ( идентификаторы );
- ключевые слова ;
- знаки операций ;
- разделители ;
- литералы ( константы ).
Лексемы языка программирования аналогичны словам естественного языка. Например, лексемами являются число 128 (но не его часть 12), имя Vasia , ключевое слово goto и знак операции сложения + . Далее мы рассмотрим лексемы подробнее.
Комментарии предназначены для записи пояснений к программе и формирования документации. Правила записи комментариев мы рассмотрим чуть позже.
Из лексем составляются выражения и операторы. Выражение задает правило вычисления некоторого значения. Например, выражение a + b задает правило вычисления суммы двух величин.
Оператор задает законченное описание некоторого действия, данных или элемента программы. Например:
Это — оператор описания целочисленной переменной a .
Идентификаторы
Имена, или идентификаторы, служат для того чтобы обращаться к программным объектам и различать их, то есть идентифицировать. В идентификаторе могут использоваться буквы, цифры и символ подчеркивания. Прописные и строчные буквы различаются, например, hacker , Hacker и hAcKeR — три разных имени.
Первым символом идентификатора может быть буква или знак подчеркивания, но не цифра. Длина идентификатора не ограничена. Пробелы внутри имен не допускаются.
Последняя возможность приведена здесь для полноты картины; не знаю, как вам, а мне трудно себе представить, зачем может понадобиться вставлять в имя шестнадцатеричные коды символов. По современным правилам хорошего стиля программирования имя обязано быть ясным, легко воспринимаемым и при этом как можно более точно отражать смысл и назначение именуемой величины.
Имена даются элементам программы, к которым требуется обращаться: переменным, типам, константам, методам, меткам и т. д. Идентификатор создается на этапе объявления переменной (метода, типа и т. п.), после этого его можно использовать в последующих операторах программы. При выборе идентификатора необходимо следить, чтобы он не совпадал с ключевыми словами.
Ключевые слова
Знаки операций и разделители
Знак операции — это один или более символов, определяющих действие над операндами. Внутри знака операции пробелы не допускаются. Например, в выражении a += b знак += является знаком операции, а a и b — операндами. Символы, составляющие знак операций, могут быть специальными, например, + , && , | и < , и буквенными, такими как as или new .
Операции делятся на унарные, бинарные и тернарную по количеству участвующих в них операндов (один, два и три операнда соответственно). Один и тот же знак может интерпретироваться по-разному в зависимости от контекста.
Литералы (константы)
Описание и примеры констант каждого типа приведены в таблице 2.2. Примеры, иллюстрирующие наиболее часто употребляемые формы констант, выделены полужирным шрифтом.
Логических литералов всего два: true и false . Они широко используются в качестве признаков наличия или отсутствия чего-либо.
Целые литералы могут быть представлены либо в десятичной, либо в шестнадцатеричной системе счисления, а вещественные — только в десятичной системе, но в двух формах: с фиксированной точкой и с порядком. Вещественная константа с порядком представляется в виде мантиссы и порядка. Мантисса записывается слева от знака экспоненты ( E или e ), порядок — справа от знака. Значение константы определяется как произведение мантиссы и возведенного в указанную в порядке степень числа 10 (например, 1.3e2 = 1,3 x 10 2 = 130). Пробелы внутри константы не допускаются.
Если требуется сформировать отрицательную целую или вещественную константу, то перед ней ставится знак унарной операции изменения знака ( – ), например, –218.
Символьная константа представляет собой любой символ в кодировке Unicode. Символьные константы записываются в одной из четырех форм:
- "обычный" символ, имеющий графическое представление (кроме апострофа и символа перевода строки) — 'A' , 'ю' , '*' ;
- управляющая последовательность — '\0' , '\n' ;
- символ в виде шестнадцатеричного кода — '\xF' , '\x74' ;
- символ в виде escape-последовательности Unicode — '\uA81B' .
Управляющей последовательностью, или простой escape-последовательностью, называют определенный символ, предваряемый обратной косой чертой. Управляющая последовательность интерпретируется как одиночный символ и используется для представления:
- кодов, не имеющих графического изображения (например, \n — переход в начало следующей строки);
- символов, имеющих специальное значение в строковых и символьных литералах, например, апострофа ( ' ).
Допустимые значения последовательностей приведены в таблице 2.3.
Символ, представленный в виде шестнадцатеричного кода, начинается с префикса \x , за которым следует код символа. Числовое значение должно находиться в диапазоне от 0 до 2 16 – 1, иначе возникает ошибка компиляции.
Escape-последовательности Unicode служат для представления символа в кодировке Unicode с помощью его кода в шестнадцатеричном виде с префиксом \u или \U , например, \u00F2 , \U00010011 . Коды в диапазоне от \U10000 до \U10FFFF представляются в виде двух последовательных символов; коды, превышающие \U10FFFF , не поддерживаются.
Управляющие последовательности обоих видов могут использоваться и в строковых константах, называемых иначе строковыми литералами. Например, если требуется вывести несколько строк, можно объединить их в один литерал, отделив одну строку от другой символами \n :
Этот литерал при выводе будет выглядеть так:
Строка может быть пустой (записывается парой смежных двойных кавычек "" ). Пустая символьная константа недопустима.
Константа null представляет собой значение, задаваемое по умолчанию для величин так называемых ссылочных типов, которые мы рассмотрим далее в этой лекции.
Комментарии
Однострочный комментарий начинается с двух символов прямой косой черты ( // ) и заканчивается символом перехода на новую строку, многострочный заключается между символами-скобками /* и */ и может занимать часть строки, целую строку или несколько строк. Комментарии не вкладываются друг в друга.
Кроме того, в языке есть еще одна разновидность комментариев, которые начинаются с трех подряд идущих символов косой черты ( /// ). Они предназначены для формирования документации к программе в формате XML. Компилятор извлекает эти комментарии из программы, проверяет их соответствие правилам и записывает их в отдельный файл.
Читайте также: