bail on the parse code, watched rob pike's talk and wrote a lexer based on that

2014-10-18 12:04:48 -04:00 · 2014-10-18 12:04:48 -04:00 · 6fa4b3b11d
commit 6fa4b3b11d
parent c8fdb2e242
4 changed files with 261 additions and 143 deletions
--- a/parse/lex/lex.go
+++ b/parse/lex/lex.go
@ -0,0 +1,205 @@
 package lexer
 import (
 	"bufio"
 	"bytes"
 	"errors"
 	"fmt"
 	"io"
 	"unicode"
 )
 type TokenType int
 const (
 	BareString TokenType = iota
 	QuotedString
 	OpenParen
 	CloseParen
 	Err
 	EOF
 )
 var invalidBareStringRunes = map[rune]bool{
 	'"':  true,
 	'\'': true,
 	'(':  true,
 	')':  true,
 	'[':  true,
 	']':  true,
 	'{':  true,
 	'}':  true,
 }
 // Token represents a single set of characters that are a "thing" in the syntax
 type Token struct {
 	Type TokenType
 	Val  string
 }
 var (
 	errInvalidUTF8 = errors.New("invalid utf8 character")
 )
 // Lexer reads through an io.Reader and emits Tokens from it.
 type Lexer struct {
 	r *bufio.Reader
 	outbuf *bytes.Buffer
 	ch chan *Token
 }
 // NewLexer constructs a new Lexer struct and returns it. r is internally
 // wrapped with a bufio.Reader, unless it already is one.
 func NewLexer(r io.Reader) *Lexer {
 	var br *bufio.Reader
 	var ok bool
 	if br, ok = r.(*bufio.Reader); !ok {
 		br = bufio.NewReader(r)
 	}
 	l := Lexer{
 		r:  br,
 		ch: make(chan *Token, 1),
 		outbuf: bytes.NewBuffer(make([]byte, 0, 1024)),
 	}
 	go l.spin()
 	return &l
 }
 func (l *Lexer) spin() {
 	f := lexWhitespace
 	for {
 		f = f(l)
 		if f == nil {
 			return
 		}
 	}
 }
 func (l *Lexer) Next() *Token {
 	t := <-l.ch
 	if t.Type == EOF {
 		return nil
 	}
 	return t
 }
 func (l *Lexer) emit(t TokenType) {
 	str := l.outbuf.String()
 	fmt.Printf("emitting %q\n", str)
 	l.ch <- &Token{
 		Type: t,
 		Val: l.outbuf.String(),
 	}
 	l.outbuf.Reset()
 }
 func (l *Lexer) peek() (rune, error) {
 	r, err := l.readRune()
 	if err != nil {
 		return 0, err
 	}
 	if err = l.r.UnreadRune(); err != nil {
 		return 0, err
 	}
 	return r, nil
 }
 func (l *Lexer) readRune() (rune, error) {
 	r, i, err := l.r.ReadRune()
 	if err != nil {
 		return 0, err
 	} else if r == unicode.ReplacementChar && i == 1 {
 		return 0, errInvalidUTF8
 	}
 	return r, nil
 }
 func (l *Lexer) err(err error) lexerFunc {
 	if err == io.EOF {
 		l.ch <- &Token{EOF, ""}
 	} else {
 		l.ch <- &Token{Err, err.Error()}
 	}
 	close(l.ch)
 	return nil
 }
 func (l *Lexer) errf(format string, args ...interface{}) lexerFunc {
 	s := fmt.Sprintf(format, args...)
 	l.ch <- &Token{Err, s}
 	close(l.ch)
 	return nil
 }
 type lexerFunc func(*Lexer) lexerFunc
 func lexWhitespace(l *Lexer) lexerFunc {
 	r, err := l.readRune()
 	if err != nil {
 		return l.err(err)
 	}
 	if unicode.IsSpace(r) {
 		fmt.Printf("skipping %q because it's a space\n", r)
 		return lexWhitespace
 	}
 	fmt.Printf("not skipping %q\n", r)
 	l.outbuf.WriteRune(r)
 	switch r {
 	case '"':
 		return lexQuotedString
 	case '(':
 		l.emit(OpenParen)
 	case ')':
 		l.emit(CloseParen)
 	default:
 		return lexBareString
 	}
 	return lexWhitespace
 }
 func lexQuotedString(l *Lexer) lexerFunc {
 	r, err := l.readRune()
 	if err != nil {
 		l.emit(QuotedString)
 		return l.err(err)
 	}
 	l.outbuf.WriteRune(r)
 	buf := l.outbuf.Bytes()
 	if r == '"' && buf[len(buf) - 2] != '\\' {
 		l.emit(QuotedString)
 		fmt.Println("emitting quoted string, parsing whitespace")
 		return lexWhitespace
 	}
 	return lexQuotedString
 }
 func lexBareString(l *Lexer) lexerFunc {
 	r, err := l.peek()
 	if err != nil {
 		fmt.Printf("got err %s in peek\n", err)
 		l.emit(BareString)
 		return l.err(err)
 	}
 	if _, ok := invalidBareStringRunes[r]; ok || unicode.IsSpace(r) {
 		l.emit(BareString)
 		return lexWhitespace
 	}
 	if _, err = l.readRune(); err != nil {
 		fmt.Printf("got err %s in read\n", err)
 		l.emit(BareString)
 		return l.err(err)
 	}
 	l.outbuf.WriteRune(r)
 	return lexBareString
 }
--- a/parse/lex/lex_test.go
+++ b/parse/lex/lex_test.go
@ -0,0 +1,56 @@
 package lexer
 import (
 	"bytes"
 	. "testing"
 )
 func TestLexer(t *T) {
 	m := map[string][]Token{
 		"": {{EOF, ""}},
 		" \t": {{EOF, ""}},
 		"a b c": {{BareString, "a"},
 				  {BareString, "b"},
 				  {BareString, "c"},
 				  {EOF, ""}},
 		"\"foo\" bar": {{QuotedString, "\"foo\""},
 						{BareString, "bar"},
 						{EOF, ""}},
 		"\"foo\nbar\" baz": {{QuotedString, "\"foo\nbar\""},
 							 {BareString, "baz"},
 							 {EOF, ""}},
 		"( foo bar ) baz": {{OpenParen, "("},
 						    {BareString, "foo"},
 						    {BareString, "bar"},
 						    {CloseParen, ")"},
 						    {BareString, "baz"},
 						    {EOF, ""}},
 		"((foo-bar))":     {{OpenParen, "("},
 							{OpenParen, "("},
 							{BareString, "foo-bar"},
 							{CloseParen, ")"},
 							{CloseParen, ")"},
 						    {EOF, ""}},
 		"(\"foo\nbar\")":  {{OpenParen, "("},
 							{QuotedString, "\"foo\nbar\""},
 							{CloseParen, ")"},
 							{EOF, ""}},
 	}
 	for input, output := range m {
 		buf := bytes.NewBufferString(input)
 		l := NewLexer(buf)
 		for i := range output {
 			tok := l.Next()
 			if tok == nil {
 				if output[i].Type == EOF {
 					continue
 				}
 				t.Fatalf("input: %q (%d) %#v != %#v", input, i, output[i], tok)
 			}
 			if *tok != output[i] {
 				t.Fatalf("input: %s (%d) %#v != %#v", input, i, output[i], tok)
 			}
 		}
 	}
 }
--- a/parse/parse.go
+++ b/parse/parse.go
@ -1,92 +1,4 @@
 package parse
 import (
 	"bufio"
 	"strconv"
 	"github.com/mediocregopher/ginger/types"
 )
 //func ReadElem(r io.Reader) (types.Elem, error) {
 //	buf := bufio.NewReader(r)
 //	var err error
 //	for {
 //	}
 //}
 // ReadString reads in a string from the given reader. It assumes the first
 // double-quote has already been read off. Ginger strings are wrapped with " and
 // are allowed to have newlines literal in them. In all other respects they are
 // the same as go strings.
 func ReadString(r *bufio.Reader) (types.Str, error) {
 	str := types.Str("\"")
 	for {
 		piece, err := r.ReadBytes('"')
 		if err != nil {
 			return "", err
 		}
 		str += types.Str(piece)
 		if piece[len(piece)-2] != '\\' {
 			break
 		}
 	}
 	ret, err := strconv.Unquote(string(str))
 	if err != nil {
 		return "", err
 	}
 	return types.Str(ret), nil
 }
 // Returns (isNumber, isFloat). Can never return (false, true)
 func whatNumber(el string) (bool, bool) {
 	var isFloat bool
 	first := el[0]
 	var start int
 	if first == '-' {
 		if len(el) == 1 {
 			return false, false
 		}
 		start = 1
 	}
 	el = el[start:]
 	for i := range el {
 		if el[i] == '.' {
 			isFloat = true
 		} else if el[i] < '0' || el[i] > '9' {
 			return false, false
 		}
 	}
 	return true, isFloat
 }
 // Given a string with no spaces and with a length >= 1, parses it into either a
 // number or string.
 func ParseBareElement(el string) (types.Elem, error) {
 	isNumber, isFloat := whatNumber(el)
 	if isNumber {
 		if isFloat {
 			f, err := strconv.ParseFloat(el, 64)
 			if err != nil {
 				return nil, err
 			}
 			return types.Float(f), nil
 		} else {
 			i, err := strconv.ParseInt(el, 10, 64)
 			if err != nil {
 				return nil, err
 			}
 			return types.Int(i), nil
 		}
 	}
 	if el[0] == ':' {
 		return types.Str(el), nil
 	}
 	return types.Str(":"+el), nil
 }
--- a/parse/parse_test.go
+++ b/parse/parse_test.go
@ -1,60 +1,5 @@
 package parse
 import (
 	"bytes"
 	"bufio"
 	. "testing"
 	"github.com/mediocregopher/ginger/types"
 )
 func TestReadString(t *T) {
 	m := map[string]types.Str{
 		`"hey there"`: "hey there",
 		`"hey\nthere"`: "hey\nthere",
 		`"hey there ⌘"`: "hey there ⌘",
 		`"hey\nthere \u2318"`: "hey\nthere ⌘",
 	}
 	for input, output := range m {
 		buf := bytes.NewBufferString(input)
 		buf.ReadByte()
 		buf2 := bufio.NewReader(buf)
 		parseOut, err := ReadString(buf2)
 		if err != nil {
 			t.Fatal(err)
 		}
 		if output != parseOut {
 			t.Fatalf("`%s` != `%s`", output, parseOut)
 		}
 	}
 }
 func TestParseBareElement(t *T) {
 	m := map[string]types.Elem{
 		`1`: types.Int(1),
 		`12`: types.Int(12),
 		`-1`: types.Int(-1),
 		`-12`: types.Int(-12),
 		`1.0`: types.Float(1.0),
 		`12.5`: types.Float(12.5),
 		`-12.5`: types.Float(-12.5),
 		`-`: types.Str(":-"),
 		`bare`: types.Str(":bare"),
 		`:not-bare`: types.Str(":not-bare"),
 	}
 	for input, output := range m {
 		el, err := ParseBareElement(input)
 		if err != nil {
 			t.Fatal(err)
 		}
 		if output != el {
 			t.Fatalf("`%s` != `%s`", output, el)
 		}
 	}
 }