wrote lexer... again. doesn't properly handle strings though

2016-07-05 20:03:04 -06:00 · 2016-07-05 20:03:04 -06:00 · b8ef198384
commit b8ef198384
parent 4f9baf7514
3 changed files with 234 additions and 0 deletions
--- a/lex.go
+++ b/lex.go
@ -0,0 +1,136 @@
+package ginger
+
+import (
+	"io"
+	"strings"
+
+	"github.com/mediocregopher/lexgo"
+)
+
+const (
+	number lexgo.TokenType = lexgo.UserDefined + iota
+	identifier
+	punctuation
+)
+
+var numberSet = "0123456789"
+var whitespaceSet = " \n\r\t\v\f"
+var punctuationSet = ",{}()<>|"
+
+func newLexer(r io.Reader) *lexgo.Lexer {
+	return lexgo.NewLexer(r, lexWhitespace)
+}
+
+func lexWhitespace(lexer *lexgo.Lexer) lexgo.LexerFunc {
+	r, err := lexer.ReadRune()
+	if err != nil {
+		return nil
+	}
+
+	if strings.ContainsRune(whitespaceSet, r) {
+		return lexWhitespace
+	}
+
+	if r == '/' {
+		n, err := lexer.PeekRune()
+		if err != nil {
+			return nil
+		}
+
+		var lexComment func(*lexgo.Lexer) bool
+		if n == '/' {
+			lexComment = lexLineComment
+		} else if n == '*' {
+			lexComment = lexBlockComment
+		}
+		if lexComment != nil {
+			if !lexComment(lexer) {
+				return nil
+			}
+			return lexWhitespace
+		}
+	}
+
+	lexer.BufferRune(r)
+
+	switch {
+	case strings.ContainsRune(punctuationSet, r):
+		return lexPunctuation
+	case strings.ContainsRune(numberSet, r):
+		return lexNumber
+	default:
+		return lexIdentifier
+	}
+}
+
+// assumes the punctuation has already been buffered
+func lexPunctuation(lexer *lexgo.Lexer) lexgo.LexerFunc {
+	lexer.Emit(punctuation)
+	return lexWhitespace
+}
+
+func lexGeneralExpr(lexer *lexgo.Lexer, typ lexgo.TokenType) lexgo.LexerFunc {
+	for {
+		r, err := lexer.ReadRune()
+		if err != nil {
+			return nil
+		}
+
+		if strings.ContainsRune(whitespaceSet, r) {
+			lexer.Emit(typ)
+			return lexWhitespace
+		}
+
+		if strings.ContainsRune(punctuationSet, r) {
+			lexer.Emit(typ)
+			lexer.BufferRune(r)
+			return lexPunctuation
+		}
+
+		lexer.BufferRune(r)
+	}
+}
+
+func lexNumber(lexer *lexgo.Lexer) lexgo.LexerFunc {
+	return lexGeneralExpr(lexer, number)
+}
+
+func lexIdentifier(lexer *lexgo.Lexer) lexgo.LexerFunc {
+	return lexGeneralExpr(lexer, identifier)
+}
+
+func lexLineComment(lexer *lexgo.Lexer) bool {
+	for {
+		r, err := lexer.ReadRune()
+		if err != nil {
+			return false
+		} else if r == '\n' {
+			return true
+		}
+	}
+}
+
+func lexBlockComment(lexer *lexgo.Lexer) bool {
+	for {
+		r, err := lexer.ReadRune()
+		if err != nil {
+			return false
+		}
+
+		if r == '*' || r == '/' {
+			n, err := lexer.PeekRune()
+			if err != nil {
+				return false
+			}
+			if r == '*' && n == '/' {
+				_, err = lexer.ReadRune()
+				return err == nil
+			}
+			if r == '/' && n == '*' {
+				if !lexBlockComment(lexer) {
+					return false
+				}
+			}
+		}
+	}
+}
--- a/lex_test.go
+++ b/lex_test.go
@ -0,0 +1,71 @@
+package ginger
+
+import (
+	"bytes"
+	"io"
+	. "testing"
+
+	"github.com/mediocregopher/lexgo"
+	"github.com/stretchr/testify/assert"
+)
+
+var lexTestSrc = `
+	// this is a comment
+	// // this is also a comment
+	a
+	anIdentifier
+	1
+	100
+	1.5
+	1.5e9
+
+	/* block comment */
+	prefix /*
+		Another block comment
+		/* Embedded */
+		/*
+			Super embedded
+		*/
+	*/ suffix
+
+	// this one is kind of fun, technically it's a comment
+	/*/
+
+	(punctuation,is{cool}<> )
+	-tab
+`
+
+func TestLex(t *T) {
+	l := newLexer(bytes.NewBufferString(lexTestSrc))
+
+	assertNext := func(typ lexgo.TokenType, val string) {
+		t.Logf("asserting %q", val)
+		tok := l.Next()
+		assert.Equal(t, typ, tok.TokenType)
+		assert.Equal(t, val, tok.Val)
+	}
+
+	assertNext(identifier, "a")
+	assertNext(identifier, "anIdentifier")
+	assertNext(number, "1")
+	assertNext(number, "100")
+	assertNext(number, "1.5")
+	assertNext(number, "1.5e9")
+	assertNext(identifier, "prefix")
+	assertNext(identifier, "suffix")
+	assertNext(punctuation, "(")
+	assertNext(identifier, "punctuation")
+	assertNext(punctuation, ",")
+	assertNext(identifier, "is")
+	assertNext(punctuation, "{")
+	assertNext(identifier, "cool")
+	assertNext(punctuation, "}")
+	assertNext(punctuation, "<")
+	assertNext(punctuation, ">")
+	assertNext(punctuation, ")")
+	assertNext(identifier, "-tab")
+
+	tok := l.Next()
+	assert.Equal(t, tok.TokenType, lexgo.Err)
+	assert.Equal(t, tok.Err, io.EOF)
+}
--- a/types.go
+++ b/types.go
@ -0,0 +1,27 @@
+package ginger
+
+type Expr struct {
+	// [0-9]+
+	Int int
+
+	// true | false
+	Bool bool
+
+	// [Expr [, Expr]]
+	Tuple []Expr
+
+	// { [Statement (;\s)]* }
+	Block []Expr
+
+	// [Expr | Expr]
+	Pipeline []Expr
+
+	// [a-z]+
+	Identifier string
+
+	// Expr > Expr
+	Statement *struct {
+		Input Expr
+		Into  Expr
+	}
+}