Code cleanup, Glottolog 4.0.

lexibank · Jul 2, 2019 · 986761d · 986761d
1 parent 92e8532
commit 986761d
Show file tree

Hide file tree

Showing 6 changed files with 48 additions and 44 deletions.
diff --git a/README.md b/README.md
@@ -34,4 +34,4 @@ This dataset, which is well-known among Sinologists, comprises 18 dialect variet
 - **Invalid lexemes:** 0
 - **Tokens:** 121,097
 - **Segments:** 247 (0 BIPA errors, 0 CTLS sound class errors, 247 CLTS modified)
-- **Inventory size (avg):** 61.06
+- **Inventory size (avg):** 61.06
diff --git a/cldf/cldf-metadata.json b/cldf/cldf-metadata.json
@@ -13,7 +13,6 @@
     "dc:related": null,
     "dc:source": "sources.bib",
     "dc:title": "Chinese Dialect Vocabularies",
-    "dcat:accessURL": "https://github.com/lexibank/beidasinitic",
     "rdf:ID": "beidasinitic",
     "rdf:type": "http://www.w3.org/ns/dcat#Distribution",
     "dialect": {
@@ -23,8 +22,8 @@
         {
             "dc:title": "environment",
             "properties": {
-                "glottolog_version": "v3.4-1-g07a9b54e37",
-                "concepticon_version": "pyconcepticon-1.4.0-206-g1ad282b"
+                "glottolog_version": "v4.0",
+                "concepticon_version": "v2.0"
             }
         }
     ],

diff --git a/cldf/sources.bib b/cldf/sources.bib
@@ -1,6 +1,6 @@
 @book{Cihui,
     Editor = {北京大学, Běijīng Dàxué},
-    Publisher = {Wénzì Gǎigé 文字改革},
-    Title = {Hànyǔ fāngyán cíhuì},
+    Publisher = {Wénzì Gǎigé 文字改革},
+    Title = {Hànyǔ fāngyán cíhuì 汉语方言词汇},
     Year = {1964}
 }
diff --git a/lexibank_beidasinitic.py b/lexibank_beidasinitic.py
@@ -1,53 +1,46 @@
-# coding=utf-8
-from __future__ import unicode_literals, print_function
-from itertools import groupby
-
 import attr
 import lingpy
-from pycldf.sources import Source
-
-from lingpy.sequence.sound_classes import syllabify
-
 from clldutils.path import Path
-from clldutils.misc import slug
-from clldutils.misc import lazyproperty
-from pylexibank.dataset import Metadata, Concept
+from lingpy.sequence.sound_classes import syllabify
+from pylexibank.dataset import Concept
 from pylexibank.dataset import Dataset as BaseDataset
 from pylexibank.util import pb, getEvoBibAsBibtex
 
 
-
 @attr.s
 class BDConcept(Concept):
     Chinese = attr.ib(default=None)
 
 
 class Dataset(BaseDataset):
     dir = Path(__file__).parent
-    id = 'beidasinitic'
+    id = "beidasinitic"
     concept_class = BDConcept
 
     def cmd_download(self, **kw):
-        self.raw.write('sources.bib', getEvoBibAsBibtex('Cihui', **kw))
+        self.raw.write("sources.bib", getEvoBibAsBibtex("Cihui", **kw))
 
     def cmd_install(self, **kw):
-        wl = lingpy.Wordlist(self.raw.posix('words.tsv'), 
-                conf=self.raw.posix('wordlist.rc'))
-
+        wl = lingpy.Wordlist(self.raw.posix("words.tsv"), conf=self.raw.posix("wordlist.rc"))
 
         with self.cldf as ds:
             ds.add_sources(*self.raw.read_bib())
             ds.add_concepts(id_factory=lambda c: c.number)
-            ds.add_languages(id_factory=lambda c: c['ID'])
-            for k in pb(wl, desc='wl-to-cldf', total=len(wl)):
-                if wl[k, 'value']:
+            ds.add_languages(id_factory=lambda c: c["ID"])
+            for k in pb(wl, desc="wl-to-cldf", total=len(wl)):
+                if wl[k, "value"]:
                     ds.add_lexemes(
-                        Language_ID=wl[k, 'doculect'],
-                        Parameter_ID=wl[k, 'beida_id'],
-                        Value=wl[k, 'value'],
-                        Form=wl[k, 'form'],
-                        Segments = syllabify([{'t↑h': 'tʰ', 'ᴇ': 'ᴇ/ɛ̝'}.get(
-                                x, x) for x in self.tokenizer(None,
-                            ''.join(wl[k, 'segments']), 
-                            column='IPA')]),
-                        Source='Cihui')
+                        Language_ID=wl[k, "doculect"],
+                        Parameter_ID=wl[k, "beida_id"],
+                        Value=wl[k, "value"],
+                        Form=wl[k, "form"],
+                        Segments=syllabify(
+                            [
+                                {"t↑h": "tʰ", "ᴇ": "ᴇ/ɛ̝"}.get(x, x)
+                                for x in self.tokenizer(
+                                    None, "".join(wl[k, "segments"]), column="IPA"
+                                )
+                            ]
+                        ),
+                        Source="Cihui",
+                    )
diff --git a/setup.py b/setup.py
@@ -1,10 +1,8 @@
 from setuptools import setup
-import sys
 import json
 
 
-PY2 = sys.version_info.major == 2
-with open('metadata.json', **({} if PY2 else {'encoding': 'utf-8'})) as fp:
+with open('metadata.json') as fp:
     metadata = json.load(fp)
 
 
@@ -22,6 +20,12 @@
         ]
     },
     install_requires=[
-        'pylexibank>=1.1.1',
-    ]
+        'pylexibank==1.1.1',
+        'segments==2.0.2'
+    ],
+    extras_require={
+        'test': [
+            'pytest-cldf',
+        ],
+    },
 )
diff --git a/test.py b/test.py
@@ -1,7 +1,15 @@
-# coding: utf-8
-from __future__ import unicode_literals
-
-
 def test_valid(cldf_dataset, cldf_logger):
     assert cldf_dataset.validate(log=cldf_logger)
 
+
+def test_languages(cldf_dataset):
+    assert len(list(cldf_dataset['LanguageTable'])) == 18
+
+
+def test_parameters(cldf_dataset):
+    assert len(list(cldf_dataset['ParameterTable'])) == 905
+
+
+def test_sources(cldf_dataset):
+    assert len(cldf_dataset.sources) == 1
+