Gramáticas LL(k)

Análise Sintática Descendente Determinista.

Gramáticas LL(k)

Introdução

A Análise Sintática por pesquisa geral não é eficiente, mesmo após a transformação para a FNG porque continua a ser possível encontrarem-se várias produções para expandir um vértice.

Na situação acima o não determinismo resulta as possíveis múltiplas expansões quando se consideram as variáveis em isolamento. Por exemplo, dada a GIC abaixo, o vértice $a S$ tem dois filhos possíveis: $aa S$ e $a c A$ .

$S A B \to a S ∣ c A \to b A ∣ c B ∣ λ \to c B ∣ a ∣ λ$

Mas uma observação mais cuidadosa da pesquisa, considerando o primeiro símbolo do sufixo que falta derivar mostra uma situação interessante:

Pesquisa Descendente de $a cc$ com Avanço

Em cada vértice podam-se os ramos "incompatíveis".

Neste exemplo, olhando para o próximo terminal durante a pesquisa por $a cc$ obtém-se uma pesquisa determinista.

Nesta secção exploram-se pesquisas deterministas com o auxílio dos "símbolos seguintes".

Conteúdo

A apresentação intuitiva acima precisa de uma representação mais formal. Por exemplo, a derivação de $a c bb$ pode ser obtida pela seguinte tabela:

$prefixo λ a a c a c b a c bb avan \overset{c}{¸} o resto a c bb c bb b b b λ vari \overset{a}{ˊ} vel S S A A A produ \overset{c}{¸} \overset{a}{˜} o S \to a S S \to c A A \to b A A \to b A A \to λ deriva \overset{c}{¸} \overset{a}{˜} o S \Rightarrow a S \Rightarrow a c A \Rightarrow a c b A \Rightarrow a c bb A \Rightarrow a c bb$

Em cada linha:

Há uma variável ativa, que inicialmente é $S$ .
É escolhida a única produção cujo primeiro símbolo coincide com o símbolo de avanço.
O avanço é "transferido" para o prefixo processado e a variável ativa é a primeira que ocorre na produção escolhida na linha anterior.

Interessa formalizar esta exploração com vista a definir métodos rigorosos para:

Determinar se uma GIC é adequada, ou não, a este processo.

Definir algoritmos eficientes baseados na pesquisa com avanço.

Começando pela definição de gramática "adequada" à pesquisa com avanço:

Gramática LL(1). A GIC $G = (V, Σ, P, S)$ com terminador $#$ é LL(1) se dadas duas derivações esquerdas $S \Rightarrow * u_{1} A v_{1} \Rightarrow u_{1} x v_{1} \Rightarrow * u_{1} a w_{1} S \Rightarrow * u_{2} A v_{2} \Rightarrow u_{2} y v_{2} \Rightarrow * u_{2} a w_{2}$ em que $u_{i}, w_{i} \in Σ^{*}, a \in Σ$ e $A \in V$ então $x = y$ .

N.B. "LL" significa "Left-to-right Leftmost derivation". Em português: "derivação esquerda da esquerda-para-a-direita". Note-se que "derivação esquerda" especifica qual é a variável a tratar enquanto que "da esquerda-para-a-direita" indica que a palavra é processada sequencialmente do primeiro símbolo para o último.

N.B. O terminador ocorre exatamente uma vez nas palavras geradas e é sempre o último símbolo. A sua função é garantir que há sempre um símbolo de avanço na palavra analisada. Fica como exercício encontrar um algoritmo que transforma uma GIC qualquer, $A$ , noutra, $A^{'}$ com terminador $#$ , de forma que $p \in L (A) ⟺ p # \in L (A^{'})$ .

Intuitivamente a definição de GIC LL(1) diz que não há duas produções distintas de $A$ que produzem sufixos terminais que começam pelo mesmo terminal. Ou seja, os resultados finais da aplicação de duas produções de $A$ distintas difere logo no primeiro símbolo.

As gramáticas LL(1) têm algumas propriedades interessantes:

Propriedades das Gramáticas LL(1). Seja $G = (V, Σ, P, S)$ uma GIC:

Se $G$ é LL(1) então não é ambígua,

Se alguma variável de $G$ for recursiva à esquerda então $L$ não é LL(1).

A generalização de LL(1) para mais do que um símbolo de avanço é representada por $LL (k)$ . Este caso é pouco interessante em termos teóricos porque torna a notação mais críptica sem progredir na resolução da análise sintática.

Note-se que uma gramática na FNG quase que é LL(1). O problema está na possibilidade de várias produções começarem pelo mesmo terminal. Para ajudar a ultrapassar esta situação é preciso "arrumar" as produções que começam pelo mesmo símbolo.

Fatorização à Esquerda. Seja $G = (V, Σ, P, S)$ uma GIC. Supondo que as produções de $A \in V$ são $A \to p u_{1} ∣ p u_{2} ∣ \dots ∣ p u_{n} ∣ v_{1} ∣ v_{2} ∣ \dots ∣ v_{m}$

em que $p, u_{i}, v_{j} \in (V \cup Σ)^{*}$ então a GIC $G^{'}$ obtida de $G$

Acrescentando uma nova variável, $Z$ .

Substituindo as produções de $A$ por $A \to p Z ∣ v_{1} ∣ v_{2} ∣ \dots ∣ v_{m}$ .

Acrescentado as produções $Z \to u_{1} ∣ u_{2} ∣ \dots ∣ u_{n}$ .

é equivalente a $G$ .

Com a fatorização as várias produções de $A$ que começam pelo mesmo prefixo, $A \to p u_{1} ∣ p u_{2} ∣ \dots ∣ p u_{n}$ ficam agrupadas numa só produção, $A \to pZ$ e a nova variável, $Z$ , gera os restantes sufixos.

Por exemplo, recuperando a gramática $G^{6}$ que ilustrou da construção da FNG:

$Forma Normal de Greibach L^{'} \to b BZB ∣ a XBZB ∣ a BBZB ∣ b ZB ∣ b BB ∣ a XBB ∣ a BBB ∣ b B ∣ b ∣ a X ∣ a B ∣ λ ⋮ Fatorizada (duas aplica \overset{c}{¸} \overset{o}{˜} es) L^{'} Z_{1} Z_{2} \to b Z_{1} ∣ a Z_{2} ∣ λ \to BZB ∣ ZB ∣ BB ∣ B ∣ λ \to XBZB ∣ BBZB ∣ XBB ∣ BBB ∣ X ∣ B ⋮$

A fatorização pode ser aplicada repetidas vezes até que o resultado seja adequado, por exemplo uma GIC LL(1).

Para determinar se uma GIC é LL(1) a partir da definição pode ser confuso. Para ajudar neste problema mas também para definir um algoritmo determinista de análise sintática para gramáticas LL(1) usam-se os primeiros, seguintes e os diretores.

Primeiros. Seguintes. Seja $G = (V, Σ, P, S)$ uma GIC.

Os primeiros de $u \in (V \cup Σ)^{*}$ são os terminais que ocorrem na primeira posição das palavras derivadas de $u$ : $primeiros (u) = {a \in Σ : u \Rightarrow * a x \in Σ^{*}}$

Os seguintes de $A \in V$ são os terminais que ocorrem imediatamente a seguir a $A$ nalguma derivação de $G$ : $seguintes (A) = {a \in Σ : S \Rightarrow * u A v \land a \in primeiros (v)}$

Por exemplo, para a GIC $S A B \to a S ∣ c A \to b A ∣ c B ∣ λ \to c B ∣ a ∣ λ$

O conjunto dos ...	... é ...
primeiros de $a c$	${a}$
primeiros de $A$	${b, c}$
seguintes de $S$	$\emptyset$

A partir da definição não é simples calcular os conjuntos dos primeiros e dos seguintes. Para esse cálculo há dois algoritmos gráficos:

Grafo dos Primeiros. Seja $G = (V, Σ, P, S)$ uma GIC. O grafo dos primeiros é um grafo em que os vértices são os símbolos de $V \cup Σ$ e para cada produção $A \to s_{1} s_{2} \dots s_{n}$ :

Acrescenta-se a aresta $A ⟶ s_{1}$ .

Se $s_{1} \in Λ$ , acrescenta-se a aresta $A ⟶ s_{2}$ .

Assim sucessivamente até se esgotarem os $s_{i}$ ou $s_{i} \neq \in Λ$ .

O grafo dos primeiros tem um caminho $A ⟶ a \in Σ$ se e só se $a \in primeiros (A)$ .

Continuando com a GIC anterior, obtém-se

Exemplo de Grafo dos Primeiros

N.B. Os "cantos" das arestas são arredondados.

e, portanto, os primeiros de cada variável são:

$V S A B primeiros (V) {a, c} {b, c} {a, c}$

ou simplificando a notação: $S A B primeiros a c b c a c$

Este método mostra apenas os primeiros das variáveis. Para as restantes palavras:

Em geral, calculam-se recursivamente os $primeiros$ :

$primeiros (λ) = \emptyset$ .

Para $a \in Σ, primeiros (a) = {a}$ .

Para $A \in V$ usa-se o grafo dos primeiros.

Para $uv \in (V \cup Σ)^{*}$ :

${primeiros (u) \cup primeiros (v) primeiros (u) se u \Rightarrow * λ caso contr \overset{a}{ˊ} rio$

Depois dos primeiros (das variáveis) podem calcular-se os seguintes.

Grafo dos Seguintes. Seja $G = (V, Σ, P, S)$ uma GIC. O grafo dos seguintes é um grafo em que os vértices são os símbolos de $V \cup Σ$ e para cada produção $A \to u B v$ com $B \in V, u, v \in (V \cup Σ)^{*}$ :

Acrescenta-se uma aresta $B ⟶ a$ para cada $a \in primeiros (v)$ .

Se $v \Rightarrow * λ$ , acrescenta-se a aresta $B ⟶ A$ .

O grafo dos seguintes tem um caminho $A ⟶ a \in Σ$ se e só se $a \in seguintes (A)$ .

Continuando com o mesmo exemplo:

Exemplo de Grafo dos Seguintes

donde resulta $S A B seguintes \emptyset \emptyset \emptyset$

O próximo passo consiste em determinar os primeiros símbolos que cada produção gera.

Diretores. Seja $G = (V, Σ, P, S)$ uma GIC e $A \to p \in P$ . O conjunto dos diretores de $A \to p$ é: $diretores (A \to p) = {primeiros (p) \cup seguintes (A) primeiros (p) se p \Rightarrow * λ caso contr \overset{a}{ˊ} rio$

Depois de calculados os primeiros e os seguintes, os diretores são facilmente encontrados: $S \to a S S \to c A S \to λ A \to b A A \to c B A \to λ B \to c B B \to a B \to λ diretores a c \emptyset b c \emptyset c a \emptyset ✓ ✓ ✓$

Os diretores permitem facilmente verificar se uma GIC é LL(1):

Teorema dos Diretores. Seja $G = (V, Σ, P, S)$ uma GIC. Se, para qualquer variável $A \in V$ quaisquer duas produções de $A$ tiverem os respetivos diretores distintos, isto é, se $diretores (A \to u) \cap diretores (A \to v) = \emptyset$ para quaisquer duas produções de $A$ , então $G$ é LL(1)

Exemplos de Aplicação do Teorema dos Diretores

A GIC definida por $S \to a S a ∣ b S b ∣ λ$ não é LL(1):

$S primeiros ab seguintes ab$ e $S \to a S a S \to b S b S \to λ diretores a b ab nok$ Como $diretores (S \to λ) \cap diretores (S \to a S a) = {a, b} \cap {a} = {a} \neq = \emptyset$ conclui-se que esta gramática não é LL(1).

Um caso mais interessante é a seguinte variante das expressões algébricas, que ilustra a aplicação de algumas transformações:

$S E T S E Z T S E F Z W T S E Z X T \to E # \to E + T ∣ T \to (E) ∣ a \to E # \to TZ ∣ T \to + T Z ∣ + T \to (E) ∣ a \to E # \to TF \to Z ∣ λ \to + T W \to Z ∣ λ \to (E) ∣ a \to E # \to TX \to + TX \to Z ∣ λ \to (E) ∣ a recurs \overset{a}{˜} o direta \overset{a}{ˋ} esquerda prefixos comuns prefixos comuns repetida repetida$

Para verificar se esta última gramática é LL(1), passo a passo:

Geradores de Vazio

$Λ = {X} .$

Primeiros

Grafo dos Primeiros

Seguindo as arestas:

$S E Z X T primeiros (a (a + + (a$

Seguintes

Grafo dos Seguintes

Seguindo as arestas:

$S E Z X T seguintes #) #) #) #) +$

Diretores

$S E Z X X T T \to E # \to TX \to + TX \to Z \to λ \to (E) \to a diretores (a (a + + #) (a ✓ ✓$

Analisador Sintático

Com os diretores de cada produção calculados, se a gramática for LL(1), é simples implementar manualmente um Analisador Sintático para essa gramática:

def S():
    if seguinte in "(a":
        E()
        consome("#")
    else:
        erro()

def E():
    if seguinte in "(a":
        T()
        X()
    else:
        erro()

def Z():
    if seguinte in "+":
        consome("+")
        T()
        X()
    else:
        erro()

def X():
    if seguinte in "+":
        Z()
    elif seguinte in "#)":
        return
    else:
        erro()

def T():
    if seguinte in "(":
        consome("(")
        E()
        consome("(")
    elif seguinte in "a":
        consome("a")
    else:
        return erro()

def consome(terminal):
    if terminal == seguinte:
        # AVANÇA
        seguinte = ...
    else:
        erro()

def erro():
    # Para o processamento
    ...

Um exemplo deste programa a correr, para analisar a palavra a+a#, é:

"pilha"	`seguinte`	resto
`S()`	`a`	`+a#`
`E(); consome(#)`	`a`	`+a#`
`T(); X(); consome(#)`	`a`	`+a#`
`consome(a); X(); consome(#)`	`a`	`+a#`
`X(); consome(#)`	`+`	`a#`
`Z(); consome(#)`	`+`	`a#`
`consome(+); T(); X(); consome(#)`	`+`	`a#`
`T(); X(); consome(#)`	`a`	`#`
`consome(a); X(); consome(#)`	`a`	`#`
`X(); consome(#)`	`#`	(vazio)
`consome(#)`	`#`	(vazio)
(vazio)	(nenhum)	(vazio)

O resultado deste analisador sintático é "verdade" ou "falso" conforme a palavra dada é, ou não, gerada pela gramática. Este é o resultado esperado mas insatisfatório pois nada diz sobre a derivação, isto é a estrutura, da palavra.

Por exemplo, dada a palavra a+a# é desejável saber, além de que $G \Rightarrow * a + a #$ , que a sua derivação esquerda é $S \Rightarrow S \to E # E # \Rightarrow E \to E + T E + T # \Rightarrow E \to T T + T # \Rightarrow T \to a a + T # \Rightarrow T \to a a + a #$ na gramática inicial.

Conclusão

Este último exemplo mostra que a Análise Sintática está quase resolvida:

As GIC LL(1) são adequadas para representar as linguagens de programação. Além disso, é possível definir algoritmos eficientes para determinar computacionalmente se uma palavra é, ou não, gerada por essa gramática.

No entanto... ainda há por onde melhorar esta situação:

A transformação de uma GIC noutra que seja LL(1) é um passo Ad hoc, que depende de muitas escolhas específicas.
Nessa transformação perde-se a ligação à gramática inicial. Em concreto, olhando para a computação de a+a# não se percebe como a palavra é gerada pelas produções da gramática inicial.
Este processo implica a implementação "manual" das "produções" (human in the middle) mas seria muito melhor que fosse totalmente automático. Isto é, pretende-se definir um programa "geral" Super que aceita como entrada uma gramática G e devolve um certo programa P que, por sua vez, aceita como entrada uma palavra p e calcula se esta é, ou não, gerada por G:
1. P = Super(G).
2. P(p) é equivalente a "p é gerada por G".

Autómatos e Linguagens de Programação