Implement lexer for new syntax

2021-12-26 14:49:43 -07:00 · 2021-12-26 14:49:43 -07:00 · e4bdeb8797
commit e4bdeb8797
parent b1831a670f
4 changed files with 491 additions and 431 deletions
--- a/gg/lexer.go
+++ b/gg/lexer.go
@ -0,0 +1,284 @@
 package gg
 import (
 	"bufio"
 	"fmt"
 	"io"
 	"strings"
 	"unicode"
 )
 // LexerError is returned by Lexer when an unexpected error occurs parsing a
 // stream of LexerTokens.
 type LexerError struct {
 	Err      error
 	Row, Col int
 }
 func (e *LexerError) Error() string {
 	return fmt.Sprintf("%d: %d: %s", e.Col, e.Row, e.Err.Error())
 }
 func (e *LexerError) Unwrap() error {
 	return e.Err
 }
 // LexerTokenKind enumerates the different kinds of LexerToken there can be.
 type LexerTokenKind string
 // Enumeration of LexerTokenKinds.
 const (
 	LexerTokenKindName        LexerTokenKind = "name"
 	LexerTokenKindNumber      LexerTokenKind = "number"
 	LexerTokenKindPunctuation LexerTokenKind = "punctuation"
 )
 // LexerToken describes a lexigraphical token which is used when deserializing
 // Graphs.
 type LexerToken struct {
 	Kind  LexerTokenKind
 	Value string // never empty string
 	Row, Col int
 }
 // Lexer is used to parse a string stream into a sequence of tokens which can
 // then be parsed by a Parser.
 type Lexer interface {
 	// Next will return a LexerToken or a LexerError. io.EOF (wrapped in a
 	// LexerError) is returned if the stream being read from is finished.
 	Next() (LexerToken, error)
 }
 type lexer struct {
 	r             *bufio.Reader
 	stringBuilder *strings.Builder
 	err           *LexerError
 	// these fields are only needed to keep track of the current "cursor"
 	// position when reading.
 	lastRow, lastCol int
 	prevRune         rune
 }
 // NewLexer wraps the io.Reader in a Lexer, which will read the io.Reader as a
 // sequence of utf-8 characters and parse it into a sequence of LexerTokens.
 func NewLexer(r io.Reader) Lexer {
 	return &lexer{
 		r:             bufio.NewReader(r),
 		lastRow:       0,
 		lastCol:       -1,
 		stringBuilder: new(strings.Builder),
 	}
 }
 // nextRowCol returns the row and column number which the next rune in the
 // stream would be at.
 func (l *lexer) nextRowCol() (int, int) {
 	if l.prevRune == '\n' {
 		return l.lastRow + 1, 0
 	}
 	return l.lastRow, l.lastCol + 1
 }
 func (l *lexer) fmtErr(err error) *LexerError {
 	row, col := l.nextRowCol()
 	return &LexerError{
 		Err: err,
 		Row: row,
 		Col: col,
 	}
 }
 func (l *lexer) fmtErrf(str string, args ...interface{}) *LexerError {
 	return l.fmtErr(fmt.Errorf(str, args...))
 }
 // discardRune must _always_ be called only after peekRune.
 func (l *lexer) discardRune() {
 	r, _, err := l.r.ReadRune()
 	if err != nil {
 		panic(err)
 	}
 	l.lastRow, l.lastCol = l.nextRowCol()
 	l.prevRune = r
 }
 func (l *lexer) peekRune() (rune, error) {
 	r, _, err := l.r.ReadRune()
 	if err != nil {
 		return '0', err
 	} else if err := l.r.UnreadRune(); err != nil {
 		// since the most recent operation on the bufio.Reader was a ReadRune,
 		// UnreadRune should never return an error
 		panic(err)
 	}
 	return r, nil
 }
 // readWhile reads runes until the given predicate returns false, and returns a
 // LexerToken of the given kind whose Value is comprised of all runes which
 // returned true.
 //
 // If an error is encountered then both the token (or what's been parsed of it
 // so far) and the error are returned.
 func (l *lexer) readWhile(
 	kind LexerTokenKind, pred func(rune) bool,
 ) (
 	LexerToken, *LexerError,
 ) {
 	row, col := l.nextRowCol()
 	l.stringBuilder.Reset()
 	var lexErr *LexerError
 	for {
 		r, err := l.peekRune()
 		if err != nil {
 			lexErr = l.fmtErrf("peeking next character: %w", err)
 			break
 		} else if !pred(r) {
 			break
 		}
 		l.stringBuilder.WriteRune(r)
 		l.discardRune()
 	}
 	return LexerToken{
 		Kind:  kind,
 		Value: l.stringBuilder.String(),
 		Row:   row, Col: col,
 	}, lexErr
 }
 // we only support base-10 integers at the moment.
 func isNumber(r rune) bool {
 	return r == '-' || ('0' <= r && r <= '9')
 }
 // next can return a token, an error, or both. If an error is returned then no
 // further calls to next should occur.
 func (l *lexer) next() (LexerToken, *LexerError) {
 	for {
 		r, err := l.peekRune()
 		if err != nil {
 			return LexerToken{}, l.fmtErrf("peeking next character: %w", err)
 		}
 		switch {
 		case r == '*': // comment
 			// comments are everything up until a newline
 			_, err := l.readWhile("", func(r rune) bool {
 				return r != '\n'
 			})
 			if err != nil {
 				return LexerToken{}, err
 			}
 			// terminating newline is deliberately not discarded. Loop and find
 			// the next token (which will be that newline).
 		case r == '\n':
 			// newlines are considered punctuation, not whitespace
 			l.discardRune()
 			return LexerToken{
 				Kind:  LexerTokenKindPunctuation,
 				Value: string(r),
 				Row:   l.lastRow,
 				Col:   l.lastCol,
 			}, nil
 		case r == '"' || r == '`':
 			// reserve double-quote and backtick for string parsing.
 			l.discardRune()
 			return LexerToken{}, l.fmtErrf("string parsing not yet implemented")
 		case unicode.IsLetter(r):
 			// letters denote the start of a name
 			return l.readWhile(LexerTokenKindName, func(r rune) bool {
 				if unicode.In(r, unicode.Letter, unicode.Number, unicode.Mark) {
 					return true
 				}
 				if r == '-' {
 					return true
 				}
 				return false
 			})
 		case isNumber(r):
 			return l.readWhile(LexerTokenKindNumber, isNumber)
 		case unicode.IsPunct(r) || unicode.IsSymbol(r):
 			// symbols are also considered punctuation
 			l.discardRune()
 			return LexerToken{
 				Kind:  LexerTokenKindPunctuation,
 				Value: string(r),
 				Row:   l.lastRow,
 				Col:   l.lastCol,
 			}, nil
 		case unicode.IsSpace(r):
 			l.discardRune()
 		default:
 			return LexerToken{}, l.fmtErrf("unexpected character %q", r)
 		}
 	}
 }
 func (l *lexer) Next() (LexerToken, error) {
 	if l.err != nil {
 		return LexerToken{}, l.err
 	}
 	tok, err := l.next()
 	if err != nil {
 		l.err = err
 		if tok.Kind == "" {
 			return LexerToken{}, l.err
 		}
 	}
 	return tok, nil
 }
--- a/gg/lexer_test.go
+++ b/gg/lexer_test.go
@ -0,0 +1,207 @@
 package gg
 import (
 	"errors"
 	"strconv"
 	"strings"
 	"testing"
 	"github.com/stretchr/testify/assert"
 )
 type mockReader struct {
 	body []byte
 	err  error
 }
 func (r *mockReader) Read(b []byte) (int, error) {
 	n := copy(b, r.body)
 	r.body = r.body[n:]
 	if len(r.body) == 0 {
 		return n, r.err
 	}
 	return n, nil
 }
 func TestLexer(t *testing.T) {
 	expErr := errors.New("eof")
 	tests := []struct {
 		in  string
 		exp []LexerToken
 	}{
 		{in: "", exp: []LexerToken{}},
 		{in: "* fooo", exp: []LexerToken{}},
 		{
 			in: "*\n",
 			exp: []LexerToken{
 				{
 					Kind:  LexerTokenKindPunctuation,
 					Value: "\n",
 					Row:   0, Col: 1,
 				},
 			},
 		},
 		{
 			in: "foo\nbar\n\n",
 			exp: []LexerToken{
 				{
 					Kind:  LexerTokenKindName,
 					Value: "foo",
 					Row:   0, Col: 0,
 				},
 				{
 					Kind:  LexerTokenKindPunctuation,
 					Value: "\n",
 					Row:   0, Col: 3,
 				},
 				{
 					Kind:  LexerTokenKindName,
 					Value: "bar",
 					Row:   1, Col: 0,
 				},
 				{
 					Kind:  LexerTokenKindPunctuation,
 					Value: "\n",
 					Row:   1, Col: 3,
 				},
 				{
 					Kind:  LexerTokenKindPunctuation,
 					Value: "\n",
 					Row:   2, Col: 0,
 				},
 			},
 		},
 		{
 			in: "foo",
 			exp: []LexerToken{
 				{
 					Kind:  LexerTokenKindName,
 					Value: "foo",
 					Row:   0, Col: 0,
 				},
 			},
 		},
 		{
 			in: "foo bar f-o f0O Foo",
 			exp: []LexerToken{
 				{
 					Kind:  LexerTokenKindName,
 					Value: "foo",
 					Row:   0, Col: 0,
 				},
 				{
 					Kind:  LexerTokenKindName,
 					Value: "bar",
 					Row:   0, Col: 4,
 				},
 				{
 					Kind:  LexerTokenKindName,
 					Value: "f-o",
 					Row:   0, Col: 8,
 				},
 				{
 					Kind:  LexerTokenKindName,
 					Value: "f0O",
 					Row:   0, Col: 12,
 				},
 				{
 					Kind:  LexerTokenKindName,
 					Value: "Foo",
 					Row:   0, Col: 16,
 				},
 			},
 		},
 		{
 			in: "1 100 -100",
 			exp: []LexerToken{
 				{
 					Kind:  LexerTokenKindNumber,
 					Value: "1",
 					Row:   0, Col: 0,
 				},
 				{
 					Kind:  LexerTokenKindNumber,
 					Value: "100",
 					Row:   0, Col: 2,
 				},
 				{
 					Kind:  LexerTokenKindNumber,
 					Value: "-100",
 					Row:   0, Col: 6,
 				},
 			},
 		},
 		{
 			in: "1<2!-3 ()",
 			exp: []LexerToken{
 				{
 					Kind:  LexerTokenKindNumber,
 					Value: "1",
 					Row:   0, Col: 0,
 				},
 				{
 					Kind:  LexerTokenKindPunctuation,
 					Value: "<",
 					Row:   0, Col: 1,
 				},
 				{
 					Kind:  LexerTokenKindNumber,
 					Value: "2",
 					Row:   0, Col: 2,
 				},
 				{
 					Kind:  LexerTokenKindPunctuation,
 					Value: "!",
 					Row:   0, Col: 3,
 				},
 				{
 					Kind:  LexerTokenKindNumber,
 					Value: "-3",
 					Row:   0, Col: 4,
 				},
 				{
 					Kind:  LexerTokenKindPunctuation,
 					Value: "(",
 					Row:   0, Col: 7,
 				},
 				{
 					Kind:  LexerTokenKindPunctuation,
 					Value: ")",
 					Row:   0, Col: 8,
 				},
 			},
 		},
 	}
 	for i, test := range tests {
 		t.Run(strconv.Itoa(i), func(t *testing.T) {
 			lexer := NewLexer(&mockReader{body: []byte(test.in), err: expErr})
 			for i := range test.exp {
 				tok, err := lexer.Next()
 				assert.NoError(t, err)
 				assert.Equal(t, test.exp[i], tok, "test.exp[%d]", i)
 			}
 			tok, err := lexer.Next()
 			assert.ErrorIs(t, err, expErr)
 			assert.Equal(t, LexerToken{}, tok)
 			lexErr := new(LexerError)
 			assert.True(t, errors.As(err, &lexErr))
 			inParts := strings.Split(test.in, "\n")
 			assert.ErrorIs(t, lexErr, expErr)
 			assert.Equal(t, lexErr.Row, len(inParts)-1)
 			assert.Equal(t, lexErr.Col, len(inParts[len(inParts)-1]))
 		})
 	}
 }
--- a/lexer/lexer.go
+++ b/lexer/lexer.go
@ -1,349 +0,0 @@
 package lexer
 import (
 	"bufio"
 	"bytes"
 	"errors"
 	"fmt"
 	"io"
 	"strings"
 )
 // TokenType indicates the type of a token
 type TokenType string
 // Different token types
 const (
 	Identifier TokenType = "identifier"
 	// Punctuation are tokens which connect two other tokens
 	Punctuation TokenType = "punctuation"
 	// Wrapper wraps one or more tokens
 	Wrapper TokenType = "wrapper"
 	String  TokenType = "string"
 	Err     TokenType = "err"
 	EOF     TokenType = "eof"
 )
 // Token is a single token which has been read in. All Tokens have a non-empty
 // Val
 type Token struct {
 	TokenType
 	Val      string
 	Row, Col int
 }
 // Equal returns whether two tokens are of equal type and value
 func (tok Token) Equal(tok2 Token) bool {
 	return tok.TokenType == tok2.TokenType && tok.Val == tok2.Val
 }
 // Err returns the error contained by the token, if any. Only returns non-nil if
 // TokenType is Err or EOF
 func (tok Token) Err() error {
 	if tok.TokenType == Err || tok.TokenType == EOF {
 		return fmt.Errorf("[line:%d col:%d] %s", tok.Row, tok.Col, tok.Val)
 	}
 	return nil
 }
 func (tok Token) String() string {
 	var typ string
 	switch tok.TokenType {
 	case Identifier:
 		typ = "ident"
 	case Punctuation:
 		typ = "punct"
 	case String:
 		typ = "str"
 	case Err, EOF:
 		typ = "err"
 	}
 	return fmt.Sprintf("%s(%q)", typ, tok.Val)
 }
 type lexerFn func(*Lexer) lexerFn
 // Lexer is used to read in ginger tokens from a source. HasNext() must be
 // called before every call to Next()
 type Lexer struct {
 	in  *bufio.Reader
 	out *bytes.Buffer
 	cur lexerFn
 	next []Token
 	row, col       int
 	absRow, absCol int
 }
 // New returns a Lexer which will read tokens from the given source.
 func New(r io.Reader) *Lexer {
 	return &Lexer{
 		in:  bufio.NewReader(r),
 		out: new(bytes.Buffer),
 		cur: lex,
 		row: -1,
 		col: -1,
 	}
 }
 func (l *Lexer) emit(t TokenType) {
 	str := l.out.String()
 	if str == "" {
 		panic("cannot emit empty token")
 	}
 	l.out.Reset()
 	l.emitTok(Token{
 		TokenType: t,
 		Val:       str,
 		Row:       l.row,
 		Col:       l.col,
 	})
 }
 func (l *Lexer) emitErr(err error) {
 	tok := Token{
 		TokenType: Err,
 		Val:       err.Error(),
 		Row:       l.absRow,
 		Col:       l.absCol,
 	}
 	if errors.Is(err, io.EOF) {
 		tok.TokenType = EOF
 	}
 	l.emitTok(tok)
 }
 func (l *Lexer) emitTok(tok Token) {
 	l.next = append(l.next, tok)
 	l.row = -1
 	l.col = -1
 }
 func (l *Lexer) readRune() (rune, error) {
 	r, _, err := l.in.ReadRune()
 	if err != nil {
 		return r, err
 	}
 	if r == '\n' {
 		l.absRow++
 		l.absCol = 0
 	} else {
 		l.absCol++
 	}
 	return r, err
 }
 func (l *Lexer) peekRune() (rune, error) {
 	r, _, err := l.in.ReadRune()
 	if err != nil {
 		return r, err
 	}
 	if err := l.in.UnreadRune(); err != nil {
 		return r, err
 	}
 	return r, nil
 }
 func (l *Lexer) readAndPeek() (rune, rune, error) {
 	r, err := l.readRune()
 	if err != nil {
 		return r, 0, err
 	}
 	n, err := l.peekRune()
 	return r, n, err
 }
 func (l *Lexer) bufferRune(r rune) {
 	l.out.WriteRune(r)
 	if l.row < 0 && l.col < 0 {
 		l.row, l.col = l.absRow, l.absCol
 	}
 }
 // HasNext returns true if Next should be called, and false if it should not be
 // called and Err should be called instead. When HasNext returns false the Lexer
 // is considered to be done
 func (l *Lexer) HasNext() bool {
 	for {
 		if len(l.next) > 0 {
 			return true
 		} else if l.cur == nil {
 			return false
 		}
 		l.cur = l.cur(l)
 	}
 }
 // Next returns the next available token. HasNext must be called before every
 // call to Next
 func (l *Lexer) Next() Token {
 	t := l.next[0]
 	l.next = l.next[1:]
 	if len(l.next) == 0 {
 		l.next = nil
 	}
 	return t
 }
 ////////////////////////////////////////////////////////////////////////////////
 // the actual fsm
 var whitespaceSet = " \n\r\t\v\f"
 var punctuationSet = ",>"
 var wrapperSet = "{}()"
 var identifierSepSet = whitespaceSet + punctuationSet + wrapperSet
 func lex(l *Lexer) lexerFn {
 	r, err := l.readRune()
 	if err != nil {
 		l.emitErr(err)
 		return nil
 	}
 	// handle comments first, cause we have to peek for those. We ignore errors,
 	// and assume that any error that would happen here will happen again the
 	// next read
 	if n, _ := l.peekRune(); r == '/' && n == '/' {
 		return lexLineComment
 	} else if r == '/' && n == '*' {
 		return lexBlockComment
 	}
 	return lexSingleRune(l, r)
 }
 func lexSingleRune(l *Lexer, r rune) lexerFn {
 	switch {
 	case strings.ContainsRune(whitespaceSet, r):
 		return lex
 	case strings.ContainsRune(punctuationSet, r):
 		l.bufferRune(r)
 		l.emit(Punctuation)
 		return lex
 	case strings.ContainsRune(wrapperSet, r):
 		l.bufferRune(r)
 		l.emit(Wrapper)
 		return lex
 	case r == '"' || r == '\'' || r == '`':
 		canEscape := r != '`'
 		return lexStrStart(l, r, makeLexStr(r, canEscape))
 	default:
 		l.bufferRune(r)
 		return lexIdentifier
 	}
 }
 func lexIdentifier(l *Lexer) lexerFn {
 	r, err := l.readRune()
 	if err != nil {
 		l.emit(Identifier)
 		l.emitErr(err)
 		return nil
 	}
 	if strings.ContainsRune(identifierSepSet, r) {
 		l.emit(Identifier)
 		return lexSingleRune(l, r)
 	}
 	l.bufferRune(r)
 	return lexIdentifier
 }
 func lexLineComment(l *Lexer) lexerFn {
 	r, err := l.readRune()
 	if err != nil {
 		l.emitErr(err)
 		return nil
 	}
 	if r == '\n' {
 		return lex
 	}
 	return lexLineComment
 }
 // assumes the starting / has been read already
 func lexBlockComment(l *Lexer) lexerFn {
 	depth := 1
 	var recurse lexerFn
 	recurse = func(l *Lexer) lexerFn {
 		r, err := l.readRune()
 		if err != nil {
 			l.emitErr(err)
 			return nil
 		}
 		n, _ := l.peekRune()
 		if r == '/' && n == '*' {
 			depth++
 		} else if r == '*' && n == '/' {
 			depth--
 		}
 		if depth == 0 {
 			return lexSkipThen(lex)
 		}
 		return recurse
 	}
 	return recurse
 }
 func lexStrStart(lexer *Lexer, r rune, then lexerFn) lexerFn {
 	lexer.bufferRune(r)
 	return then
 }
 func makeLexStr(quoteC rune, canEscape bool) lexerFn {
 	var fn lexerFn
 	fn = func(l *Lexer) lexerFn {
 		r, n, err := l.readAndPeek()
 		if err != nil {
 			if err == io.EOF {
 				if r == quoteC {
 					l.bufferRune(r)
 					l.emit(String)
 					l.emitErr(err)
 					return nil
 				}
 				l.emitErr(errors.New("expected end of string, got end of file"))
 				return nil
 			}
 		}
 		if canEscape && r == '\\' && n == quoteC {
 			l.bufferRune(r)
 			l.bufferRune(n)
 			return lexSkipThen(fn)
 		}
 		l.bufferRune(r)
 		if r == quoteC {
 			l.emit(String)
 			return lex
 		}
 		return fn
 	}
 	return fn
 }
 func lexSkipThen(then lexerFn) lexerFn {
 	return func(l *Lexer) lexerFn {
 		if _, err := l.readRune(); err != nil {
 			l.emitErr(err)
 			return nil
 		}
 		return then
 	}
 }
--- a/lexer/lexer_test.go
+++ b/lexer/lexer_test.go
@ -1,82 +0,0 @@
 package lexer
 import (
 	"bytes"
 	. "testing"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 )
 var lexTestSrc = `
 	// this is a comment
 	// // this is also a comment
 	a
 	anIdentifier
 	1
 	100
 	1.5
 	1.5e9
 	/*
 		some stuff
 	*/
 	/* this should actually work */
 	/*/
 	/*
 		nested!
 		/*
 			wtf this is crazy
 		*/
 	*/
 	(punctuation,is{cool}> )
 	-tab
 	"this is a string", "and so is this one"
 	"\"foo"
 	"bar\"baz\""
 	"buz\0"
 `
 func TestLex(t *T) {
 	l := New(bytes.NewBufferString(lexTestSrc))
 	assertNext := func(typ TokenType, val string, row, col int) {
 		t.Logf("asserting %s %q [row:%d col:%d]", typ, val, row, col)
 		require.True(t, l.HasNext())
 		tok := l.Next()
 		assert.Equal(t, typ, tok.TokenType)
 		assert.Equal(t, val, tok.Val)
 		assert.Equal(t, row, tok.Row)
 		assert.Equal(t, col, tok.Col)
 	}
 	assertNext(Identifier, "a", 3, 2)
 	assertNext(Identifier, "anIdentifier", 4, 2)
 	assertNext(Identifier, "1", 5, 2)
 	assertNext(Identifier, "100", 6, 2)
 	assertNext(Identifier, "1.5", 7, 2)
 	assertNext(Identifier, "1.5e9", 8, 2)
 	assertNext(Wrapper, "(", 24, 2)
 	assertNext(Identifier, "punctuation", 24, 3)
 	assertNext(Punctuation, ",", 24, 14)
 	assertNext(Identifier, "is", 24, 15)
 	assertNext(Wrapper, "{", 24, 17)
 	assertNext(Identifier, "cool", 24, 18)
 	assertNext(Wrapper, "}", 24, 22)
 	assertNext(Punctuation, ">", 24, 23)
 	assertNext(Wrapper, ")", 24, 25)
 	assertNext(Identifier, "-tab", 25, 2)
 	assertNext(String, `"this is a string"`, 27, 2)
 	assertNext(Punctuation, ",", 27, 20)
 	assertNext(String, `"and so is this one"`, 27, 22)
 	assertNext(String, `"\"foo"`, 28, 2)
 	assertNext(String, `"bar\"baz\""`, 29, 2)
 	assertNext(String, `"buz\0"`, 30, 2)
 	assertNext(EOF, "EOF", 31, 0)
 	assert.False(t, l.HasNext())
 }