Skip to content

formato alternativo ao “plain text”  #50

@arademaker

Description

@arademaker

The TEI is an international and interdisciplinary standard used by libraries, museums, publishers, and academics to represent all kinds of literary and linguistic texts, using an encoding scheme that is maximally expressive and minimally obsolescent.

A todo commit, sempre acho algumas pequenas correções a serem feitas em relação a

  1. codificação de carácteres
  2. Separação meta informações e textos
  3. Quebra de linhas

manter os documentos em plain text também dificulta:

  1. Links
  2. Estruturas como tabelas, listas, seções, citações etc

Para resolver 2, estamos usando markdown “parcialmente”.

A vantagem de plain text é a facilidade de processamento por ferramentas de NLP. Mas podemos construir alguns scripts auxiliares.

outra vantagem é a operação de “diff” sobre versões no repositório. Com plain text, se mantivemos linhas curtas, conseguimos localizar facilmente diferenças entre versões. Isso também deve ser possível com formatos como TEI ou mesmo HTML, se também mantivemos linhas de até 80-100 caracteres.

Este issue é para começarmos a discutir possíveis novos caminhos para manutenção mais robusta dos verbetes.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions