<div dir="auto">Thanks for the feedback! <div dir="auto"><br></div><div dir="auto">I tried to list the characters I thought should be excluded.   Did I miss any?</div></div><br><div class="gmail_quote"><div dir="ltr">On Tue, 23 Oct 2018, 19:37 Stephan Oepen, &lt;<a href="mailto:oe@ifi.uio.no">oe@ifi.uio.no</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">personally, i like all of your identifiers, francis, maybe even<br>
including the one with a non-breaking space :-).<br>
<br>
i would think whether or not they are accepted by ‘\w’ depends on the<br>
specific interpretation of ‘word characters’, which in turn may well<br>
depend on your local set-up, i.e. the current locale.  from the<br>
perlre(1) man page:<br>
<br>
       [...]Thus, under<br>
       this modifier, the ASCII platform effectively becomes a Unicode<br>
       platform; and hence, for example, &quot;\w&quot; will match any of the more than<br>
       100,000 word characters in Unicode.<br>
<br>
       Unlike most locales, which are specific to a language and country pair,<br>
       Unicode classifies all the characters that are letters somewhere in the<br>
       world as &quot;\w&quot;.<br>
<br>
to avoid such dependencies on locale context, it might indeed be<br>
simpler to define the syntax in terms of everything except a small<br>
list of characters (that have operator-like status in TDL).  this is<br>
more or less how the current lexers in the LKB and PET work, so might<br>
also be easier to make consistent across platforms.<br>
<br>
cheers, oe<br>
<br>
On Tue, Oct 23, 2018 at 12:30 PM Francis Bond &lt;<a href="mailto:bond@ieee.org" target="_blank" rel="noreferrer">bond@ieee.org</a>&gt; wrote:<br>
&gt;<br>
&gt; G&#39;day,<br>
&gt;<br>
&gt; currently Zhong has several identifiers which Mike&#39;s TDL code<br>
&gt; considers invalid, but which the LKB and ACE are fine with:<br>
&gt;<br>
&gt; *-marker := symbol &amp;<br>
&gt;  ,_c_1 := conj_-_e_le &amp;<br>
&gt;  _n_1 := n_-_pn_le &amp;<br>
&gt; 和_c_⚠ := conj_-_e_le &amp;<br>
&gt; 格里姆斯比•罗伊洛特_n_1 := n_-_h_pn_le &amp;<br>
&gt;<br>
&gt; full width *<br>
&gt; full width ,<br>
&gt; nonbreakspace  [our bad, I will remove]<br>
&gt; warning sign (which I like to use for mal-rules).<br>
&gt; dot (often used in foreign names)<br>
&gt;<br>
&gt; And in Jacy:<br>
&gt; ザ・ベスト_n_1-tc := ordinary-nohon-n-lex &amp;<br>
&gt; full width dot (often used in foreign names)<br>
&gt;<br>
&gt; PyDelphin defines identifiers to be: ([\w_+*?-]+),<br>
&gt; and coreference to be  \#([^\s!&quot;#$&amp;&#39;(),./:;&lt;=&gt;[\]^]+)<br>
&gt;<br>
&gt; It would be nice to at least include: ・•⚠, in identifiers, but maybe<br>
&gt; better to have a list of disallowed things (like coreference, now I<br>
&gt; guess with |):<br>
&gt;<br>
&gt; ([^\s!&quot;#$&amp;&#39;(),./:;&lt;=&gt;[\]^|]+)<br>
&gt;<br>
&gt; and even better if the LKB, PET, ACE, AGREE and PyDelphin are consistent.<br>
&gt;<br>
&gt; What do people think?<br>
&gt;<br>
&gt; --<br>
&gt; Francis Bond &lt;<a href="http://www3.ntu.edu.sg/home/fcbond/" rel="noreferrer noreferrer" target="_blank">http://www3.ntu.edu.sg/home/fcbond/</a>&gt;<br>
&gt; Division of Linguistics and Multilingual Studies<br>
&gt; Nanyang Technological University<br>
&gt;<br>
</blockquote></div>