Gramáticas LR(1)

Gerador de Analisador Sintático a partir da GIC.

Gramáticas LR(1)

Embora as gramáticas LR(0) proporcionem um algoritmo completo e eficiente para a análise sintática, as linguagens abrangidas não incluem expressões algébricas, pelo que é necessário considerar um esquema mais adequado.

Aqui que entram as gramáticas LR(1), que usam informação sobre o "proximo terminal não processado" (o avanço) para guiar o processo da análise sintática.

Item LR(1)

Seguindo a estrutura da apresentação das gramáticas LR(0), define-se:

Itens, Itens Válidos e Fecho de um conjunto de itens.
Autómato dos itens válidos.
Condições LR(1).
Tabela de Análise Sintática.
Autómato de Pilha Reconhecedor.

Item LR(1). Item LR(1) Válido. Seja $G = (V, Σ, P, S)$ uma GIC.

Um Item LR(1) de $G$ tem a forma $(A \to u \cdot v, L)$ onde:

núcleo $A \to u \cdot v$ é um item LR(0).

símbolos de avanço $L \subseteq Σ \cup {#}$ .

O item LR(1) $(A \to u \cdot v, L)$ é válido para $xu$ se, para cada $a \in L$ existe uma derivação $S \Rightarrow_{R} * x A y$ com $a \in primeiros (y #)$ .

O fecho de um conjunto de itens afeta os símbolos de avanço.

O Fecho LR(1) de um conjunto $X$ de itens LR(1) define-se recursivamente:

base $X \subseteq fecho_{1} (X)$ .

passo Se $(A \to u \cdot B v, L) \in fecho_{1} (X), B \in V$ então, para cada produção $B \to w$ também $(B \to \cdot w, K) \in fecho_{1} (X)$ onde $K = {primeiros (v) \cup L primeiros (v) v \Rightarrow * λ caso contr \overset{a}{ˊ} rio$

fecho nada mais pertence a $fecho_{1} (X)$ .

Por exemplo, dada a GIC $S A \to A b A \to A a ∣ λ$ tem-se $fecho_{1} (S \to A b \cdot A, {#}) = {(S \to A b \cdot A, {#})} \cup {(A \to \cdot A a, {#}), (A \to \cdot, {#})} \cup {(A \to \cdot A a, {a}), (A \to \cdot, {a})} = ⎩ ⎨ ⎧ S \to A b \cdot A, # A \to \cdot A a, # A \to \cdot, # A \to \cdot A a, a A \to \cdot, a ⎭ ⎬ ⎫$

Autómato Finito dos Itens LR(1) Válidos

Tal como nas gramáticas LR(0), os itens LR(1) válidos são reconhecidos por um AFD.

Autómato dos Itens LR(1) Válidos (AIV). Seja $G = (V, Σ, P, S)$ uma GIC qualquer e $G^{'} = (V \cup {S^{'}}, Σ, P \cup {S^{'} \to S}, S^{'}) .$

O autómato dos itens LR(1) válidos de $G^{'}$ é o AFD $A = (Q, V \cup Σ, δ, 0, Q ∖ {\emptyset})$ tal que:

estado inicial $0 = fecho_{1} (S^{'} \to S, #)$ .

transição Para cada $q \in Q, x \in V \cup Σ$ ,

$δ (q, x) = fecho_{1} ({(A \to u x \cdot v, L) : (A \to u \cdot x v, L) \in q}) .$

Por exemplo, para a GIC dada acima:

Diagrama do Autómato dos Itens LR(1) Válidos

Em cada estado os itens completos são assinalados com $⋆$ . O estado $\emptyset$ não está representado.

O cálculo de $fecho_{1} (S^{'} \to \cdot S, #)$ passo-a-passo:

Como ocorre $\cdot S$ , é necessário adicionar os itens iniciais de $S$ . O núcleo é $S \to \cdot A b A$ .
Para calcular o avanço deste item, note-se que inicialmente $(S^{'} \to \cdot S λ v, # L)$ portanto, pela definição de $fecho_{1}$ , $K = primeiros (λ) \cup L = \emptyset \cup {#} = {#}$ .
Portanto, o item LR(1) a acrescentar em $0$ é $S \to \cdot A b A, #$ .
Agora, de $S \to \cdot A b A, #$ é preciso acrescentar os itens iniciais de $A$ . Os núcleos são $A \to \cdot A a$ e $A \to \cdot$ . O cálculo dos avanços é idêntico para estes dois itens.
Estes itens resultam de $S \to \cdot A b v A, #$ . Pela definição de $fecho_{1}$ , $K = primeiros (b) = {b}$ .
Portanto, são acrescentados dois itens LR(1): $A \to \cdot A a, b$ e $A \to \cdot, b$ .
Do item $A \to \cdot A a v, b$ , pelas razões anteriores, é necessário acrescentar dois itens LR(1): $A \to \cdot A a, a$ e $A \to \cdot, a$ .
Torna a acontecer $A \to \cdot A a v, a$ mas os itens que resultam já constam no $fecho_{1}$ e nada mais é acrescentado.
Finalmente o fecho tem vários itens com o mesmo núcleo e que diferem apenas no avanço. Neste caso esses itens "fundem-se" num único, unindo os avanços:
1. $A \to \cdot A a, b$ e $A \to \cdot A a, a$ fundem-se em $A \to \cdot A a, ab$ .
2. $A \to \cdot, b$ e $A \to \cdot, a$ fundem-se em $A \to \cdot, ab$ .

Tabela de Análise Sintática LR(1)

Tal como no caso das gramáticas LR(0), os estados do AIV LR(1) permitem determinar se o processo da análise sintática pode, ou não, ser aplicado.

Para que a análise sintática seja determinista é necessário que os estados sejam livres de conflitos (redução/redução e redução/transferência). No caso das gramáticas LR(0), sem informação sobre os avanços, cada estado do AIV pode determinar ou uma única redução ou uma transferência. Nos AIV das gramáticas LR(1) os itens têm avanços, que proporcionam decisões mais informadas em cada caso.

No AIV acima, visto como um AIV LR(0), o estado $5$ tem um conflito redução/transferência. Mas o avanço do item $S \to A b A, #$ restringe a aplicação da redução apenas quando o avanço na entrada é $#$ . Portanto não há conflito com uma eventual transferência de $a$ .

Em cada estado, cada avanço identifica a ação (reduzir, transferir, aceitar, rejeitar) no processo da análise sintática.

Portanto, a tabela de análise sintática LR(1) tem uma ação possível para cada símbolo terminal. Especificamente:

Tabela de Análise Sintática LR(1). (TAS LR(1)) Dada uma GIG e o seu AIV LR(1), a tabela de análise sintática LR(1) tem:

Para cada estado do AIV LR(1), uma linha, exceto para o estado $\emptyset$ .

Para cada símbolo $(V \cup Σ) ∖ {S^{'}}$ , uma coluna que descreve a transição do AIV.

Para cada símbolo $a \in Σ \cup {#}$ , uma coluna que, cruzada com a linha do estado $q$ , determina a ação:

aceitar (ou $A$ ) se $q$ contém um item completo de $S^{'}$ e se $a = #$ .

transferir (ou $T$ ) se $q$ contém um item $A \to u \cdot a v, L$ .

reduzir (ou $R : A \to p$ ) se $q$ contém o item completo $A \to p \cdot, L$ , $A \neq = S$ e $a \in L$ .

rejeitar (omitido).

Por exemplo, A TAS LR(1) do exemplo acima é:

$q 0123456 S 1 A 25 a 36 b 4 a A \to λ transferir A \to A a A \to λ transferir A \to A a b A \to λ transferir A \to A a # aceitar A \to λ S \to A b A A \to A a$

Comparando esta tabela com as obtidas nas TAS LR(0), a coluna ação é mais específica, considerando agora os símbolos de avanço e, portanto, a ação depende não só do estado no AIV mas também do próximo símbolo na entrada.

Numa TAS LR(1) mantém-se a necessidade de determinar, sem ambiguidade, cada ação no processo da análise sintática. Em relação ao caso LR(0), a escolha da ação depende não só do estado do AIV mas também do símbolo de avanço.

Quando esta informação (estado AIV + símbolo de avanço) não é suficiente para determinar uma única ação tem-se um conflito, que pode ser de dois tipos:

Conflito Redução/Redução LR(1): Num estado com dois itens completos em que os avanços se intersetam. Formalmente, se no AIV LR(1) existe um estado com dois itens completos distintos $(A \to p \cdot, L)$ e $(B \to q \cdot, K)$ e $L \cap K \neq = \emptyset$ .
Conflito Redução/Transferência LR(1): Num estado com um item completo em que sai uma aresta "com um terminal" que está no avanço desse item completo. Formalmente, se no AIV LR(1) existe um item completo $(A \to p \cdot, L)$ e um item $(B \to u \cdot a v, L)$ e $a \in L$ .

Teorema das Gramáticas LR(1). Uma GIC é LR(1) se e só se o seu AIV não tem conflitos redução/redução LR(1) nem redução/transferência LR(1).

Autómato de Pilha Reconhecedor LR(1)

Quando o AIV LR(1) de uma GIC está livre de conflitos é possível definir-se um autómato de pilha para reconhecer a linguagem gerada pela GIC. Além disso, para as palavras geradas/aceites, a observação da computação permite recuperar a derivação direita da respetiva palavra.

Autómato de Pilha Reconhecedor LR(1). Seja $G = (V, Σ, P, S)$ uma GIC LR(1) e $A = (Q, V \cup Σ, δ_{A}, 0, Q ∖ {\emptyset})$ o seu AIV LR(1). O Autómato de Pilha Reconhecedor LR(1) (APR LR(1)) de $G$ , que reconhece a linguagem gerada por $G$ , é $R = (Q_{R}, Σ \cup {#}, V \cup Σ \cup Q ∖ {\emptyset}, δ, p_{I}, F_{R})$ com

estados de controlo: $Q_{R} = {p_{I}, p} \cup {p_{a} : a \in Σ \cup {#}}$ .

estados finais: $F_{R} = {p_{#}}$ .

e em que a transição, $δ$ , é definida pelos seguintes elementos:

iniciar: $(p, 0) \in δ (p_{I}, λ, λ)$ .

avançar: Para cada $a \in Σ \cup {#}$ então $(p_{a}, λ) \in δ (p, a, λ)$ .

transferir: Para cada $q \in Q$ com um item $(A \to u \cdot a v, L)$ em que $a \in Σ$ e $q^{'} = δ_{A} (q, a)$ então $(p, q^{'} a q) \in δ (p_{a}, λ, q)$ .

reduzir: Para cada estado $q \in Q$ com um item completo $(A \to a_{1} a_{2} \dots a_{n} \cdot, L)$ com $A \neq = S^{'}$ e para cada $a \in L$ , quando no AIV existe a computação $q_{0} ⊢ a_{1} q_{1} ⊢ a_{2} q_{2} \dots ⊢ a_{n} q_{n} = q$ e $q^{'} = δ_{A} (q_{0}, A)$ então $(p_{a}, q^{'} A q_{0}) \in δ (p_{a}, λ, q_{n} a_{n} \dots q_{2} a_{2} q_{1} a_{1} q_{0})$ .

aceitar: Para cada estado $q \in Q$ com um item completo $(S^{'} \to a_{1} a_{2} \dots a_{n} \cdot, L)$ do símbolo inicial da GIC, se $# \in L$ e quando no AIV existe a computação $0 ⊢ a_{1} q_{1} ⊢ a_{2} \dots ⊢ a_{n} q_{n} = q$ então $(p_{#}, λ) \in δ (p_{#}, λ, q_{n} a_{n} \dots q_{2} a_{2} q_{1} a_{1} 0) .$

Alternativamente as transições do APR LR(1) podem ser descritas pela seguinte tabela: $Opera \overset{c}{¸} \overset{a}{˜} o Iniciar Avan \overset{c}{¸} ar Transferir Reduzir Aceitar Condi \overset{c}{¸} \overset{a}{˜} o a \in Σ \cup {#} (A \to u \cdot a v, L) \in q a \in Σ q^{'} = δ_{A} (q, a) (A \to a_{1} \dots a_{n} \cdot, L) ⋆ \in q A \neq = S^{'} a \in L q_{0} ⊢ a_{1} \dots ⊢ a_{n} q_{n}, q_{n} = q α = q_{n} a_{n} \dots a_{1} q_{0} q_{0} ⊢ A q^{'} β = q^{'} A q_{0} (S^{'} \to a_{1} \dots a_{n} \cdot, L) ⋆ \in q # \in L 0 ⊢ a_{1} \dots ⊢ a_{n} q_{n}, q_{n} = q α = q_{n} a_{n} \dots a_{1} 0 De p_{I} p p_{a} p_{a} p_{#} Aresta λ, λ / 0 a, λ / λ λ, q / q^{'} a q λ, α / β λ, α / λ Para p p_{a} p p_{a} p_{#}$

Intuitivamente os estados do APR LR(1) refinam os do APR LR(0) com informação sobre o avanço. O estado $p$ "consulta" o símbolo de avanço (por exemplo, $a$ ) e encaminha a computação para o respetivo estado $p_{a}$ , onde os passos são feitos sob o pressuposto "o avanço é $a$ ".

A computação fica em $p_{a}$ até $a$ ser transferido da entrada para a pilha. Depois dessa transferência é necessário tornar a consultar o avanço (em $p$ ) e proceder de acordo com o novo avanço.

O símbolo $#$ marca o fím da entrada e é processado de acordo com esse pressuposto. Por exemplo, não há transições de $p_{#}$ para $p$ e só neste estado pode ocorrer a ação aceitar.

Continuando o exemplo anterior, a transição do APR LR(1) tem as seguintes arestas:

iniciar transições $p_{I} ⊢ p$ : $λ, λ / 0$ .
avançar $terminal a b # de p p p aresta a, λ / λ b, λ / λ #, λ / λ para p_{a} p_{b} p_{#}$
transferir $AIV 2 ⊢ a 3 2 ⊢ b 4 5 ⊢ a 6 APR: de p_{a} p_{b} p_{a} APR: aresta λ, 2 / 3 a 2 λ, 2 / 4 b 2 λ, 5 / 6 a 5 APR: para p p p$
reduzir $AIV: estado 03456 AIV: item completo de A \neq = S^{'} A \to λ \cdot A \to A a \cdot A \to λ \cdot S \to A b A \cdot A \to A a \cdot AIV: avan \overset{c}{¸} os a, b a, b #, a # #, a AIV: computa \overset{c}{¸} \overset{a}{˜} o 0 0 ⊢ A 2 ⊢ a 3 4 0 ⊢ A 2 ⊢ b 4 ⊢ A 5 4 ⊢ A 5 ⊢ a 6 APR: aresta λ, 0 / 2 A 0 λ, 3 a 2 A 0 / 2 A 0 λ, 4 / 5 A 4 λ, 5 A 4 b 2 A 0 / 1 S 0 λ, 6 a 5 A 4 / 5 A 4$
aceitar $AIV: estado 1 AIV: item completo de S^{'} S^{'} \to S \cdot AIV: avan \overset{c}{¸} os # AIV: computa \overset{c}{¸} \overset{a}{˜} o 0 APR: aresta λ, 1 S 0 / λ$

que corresponde ao diagrama

Diagrama do APR LR(1)

As arestas $p \to p_{x}$ são avançar, $p_{x} \to p_{x}$ reduzir e aceitar e $p_{x} \to p$ são transferir.

Como é que este APR processa palavras? Por exemplo, $aba$ é gerada pela GIC, enquanto que $bab$ não.

Para $aba$ o APR tem a computação $estado p_{I} p p_{a} p_{a} p p_{b} p_{b} p p_{a} p_{a} p p_{#} p_{#} p_{#} p_{#} pilha λ 00 2 A 0 3 a 2 A 0 3 a 2 A 0 2 A 0 4 b 2 A 0 4 b 2 A 0 5 A 4 b 2 A 0 6 a 5 A 4 b 2 A 0 6 a 5 A 4 b 2 A 0 5 A 4 b 2 A 0 1 S 0 λ entrada aba # aba # ba # ba # ba # a # a # a # # # # λ λ λ λ pr \overset{o}{ˊ} ximo estado p p_{a} p_{a} p p_{b} p_{b} p p_{a} p_{a} p p_{#} p_{#} p_{#} p_{#} aresta λ, λ / 0 a, λ / λ λ, 0 / 2 A 0 λ, 2 / 3 a 2 b, λ / λ λ, 3 a 2 A 0 / 2 A 0 λ, 2 / 4 b 2 a, λ / λ λ, 4 / 5 A 4 λ, 5 / 6 a 5 #, λ / λ λ, 6 a 5 A 4 / 5 A 4 λ, 5 A 4 b 2 A 0 / 1 S 0 λ, 1 S 0 / λ a \overset{c}{¸} \overset{a}{˜} o iniciar avan \overset{c}{¸} ar reduzir A \to λ transferir avancar reduzir A \to A a transferir avan \overset{c}{¸} ar reduzir A \to λ transferir avan \overset{c}{¸} ar reduzir A \to A a reduzir S \to A b A aceitar (S^{'} \to S)$ que aceita e mostra a derivação $S \Rightarrow_{R} A b A \Rightarrow_{R} A b A a \Rightarrow_{R} A ba \Rightarrow_{R} A aba \Rightarrow_{R} aba$ . Quando à computação de $bab$ , rejeita:

$estado p_{I} p p_{b} p_{b} p p_{a} p_{a} p p_{b} pilha λ 00 2 A 0 4 b 2 A 0 4 b 2 A 0 5 A 4 b 2 A 0 6 a 5 A 4 b 2 A 0 6 a 5 A 4 b 2 A 0 entrada bab # bab # ab # ab # ab # b # b # b # # pr \overset{o}{ˊ} ximo estado p p_{b} p_{b} p p_{a} p_{a} p p_{b} \emptyset aresta λ, λ / 0 b, λ / λ λ, 0 / 2 A 0 λ, 2 / 4 b 2 a, λ / λ λ, 4 / 5 A 4 λ, 5 / 6 a 5 λ, λ / λ \emptyset a \overset{c}{¸} \overset{a}{˜} o iniciar avan \overset{c}{¸} ar reduzir A \to λ transferir avan \overset{c}{¸} ar reduzir A \to λ transferir avan \overset{c}{¸} ar rejeitar$

Com este exemplo termina a resolução do Problema Principal de ALP — Dada uma linguagem $A$ e uma palavra $p$ no mesmo alfabeto, determinar se $p \in A$ de forma computável, eficiente e adequada.

A linguagem é adequada se for formalmente definida por uma GIC LR(1).

Dada uma GIC que gere a linguagem, a construção algorítmica do seu AIV LR(1) é eficiente.

Pode-se verificar algoritmicamente e de forma eficiente se a GIC é LR(1), confirmando que nenhum estado do seu AIV LR(1) tem contradições. Nesse caso a linguagem é adequada.

A construção do APR LR(1) a partir do AIV LR(1) é, também, algorítmica e eficiente.

Dada uma palavra sobre o alfabeto da linguagem, o processamento pelo APR LR(1) é eficiente (e, claro, algorítmico). Adicionalmente, se a palavra está na linguagem, é possível recuperar a sua derivação na GIC para efeitos de processamento semântico.

Resumindo, este processo define um algoritmo (qua pode ser implementado em qualquer linguagem de programação comum) que é eficiente e resolve o Problema Principal de ALP.

Gramáticas LALR(1)

Neste ponto é fácil melhorar o seguinte problema: a construção do AIV gera muitos estados, o que pode ter um efeito negativo no desempenho dos restantes passos.

Quando dois estados do AIV têm os mesmos núcleos e, eventualmente, avanços distintos, a fusão consiste em juntar esses dois estados num único, cujos itens são obtidos:

os núcleos são os mesmos;

cada avanço é a união dos avanços dos itens correspondentes.

Usando um exemplo anterior

Diagrama do Autómato dos Itens LR(1) Válidos

Os estados $3$ e $6$ têm exatamente os mesmos núcleos.

O amalgamento deste AIV é

Autómato Amalgamado

O estado $36$ resulta de fundir $3$ com $6$ . Neste exemplo não há mais fusões possíveis.

Formalmente:

Autómato Amalgamado. Seja $A = (Q, Σ, δ, 0, F)$ um AIV LR(1).

Se $X = {q_{1}, \dots, q_{n}}$ for um conjunto de estados de $A$ com os mesmos núcleos, a fusão destes estados é o estado $X$ com os itens $(A \to u \cdot v, L_{1} \cup \dots L_{n})$ tais que $(A \to u \cdot v, L_{i}) \in q_{i}$ .

Seja ${Q_{1}, \dots, Q_{n}}$ uma partição de $Q$ tal que:

todos os estados de $Q_{i}$ têm os mesmos núcleos e

se $i \neq = j$ os núcleos dos estados de $Q_{i}$ e $Q_{j}$ são disjuntos. então

O autómato amalgamado $A^{'}$ é o autómato que resulta de fundir os estados com o mesmo conjunto de núcleos: $A^{'} = (Q_{A}, Σ, δ^{'}, {0}, Q_{A} ∖ {{\emptyset}})$ com

estados de controlo $Q_{A} = {Q_{1}, \dots, Q_{n}}$ .

transição $δ^{'} (Q_{i}, a) = Q_{j}$ se existe $q \in Q_{i}$ tal que $δ (q, a) \in Q_{j}$ .

Os autómatos amalgamados definem uma classe de gramáticas distinta de LR(1):

Gramática LALR(1). Uma GIC é LALR(1) se o seu autómato amalgamado satisfaz as condições LR(1): não tem conflitos redução/redução nem redução/transferência.