<html><head><meta http-equiv="Content-Type" content="text/html charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">Hi Olga and Kristin,<div class=""><br class=""></div><div class="">You were close. &nbsp;As Francis mentioned, you need to define some generic lexical entries. &nbsp;You managed to declare types for generic lexical entries, but not the entries themselves. &nbsp;Add the following to abz-pet.tdl, near the main lexicon section:</div><div class=""><br class=""></div><div class=""><div style="margin: 0px; font-size: 14px; line-height: normal; font-family: Menlo;" class=""><span style="font-variant-ligatures: no-common-ligatures" class="">:begin :instance :status generic-lex-entry.</span></div><div style="margin: 0px; font-size: 14px; line-height: normal; font-family: Menlo;" class=""><span style="font-variant-ligatures: no-common-ligatures" class="">:include "generic-lexicon".</span></div><div style="margin: 0px; font-size: 14px; line-height: normal; font-family: Menlo;" class=""><span style="font-variant-ligatures: no-common-ligatures" class="">:end :instance.</span></div></div><div class=""><span style="font-variant-ligatures: no-common-ligatures" class=""><br class=""></span></div><div class=""><span style="font-variant-ligatures: no-common-ligatures" class="">and then create the generic-lexicon.tdl file containing a single statement:</span></div><div class=""><span style="font-variant-ligatures: no-common-ligatures" class=""><br class=""></span></div><div class=""><span style="font-variant-ligatures: no-common-ligatures" class=""><div style="margin: 0px; font-size: 14px; line-height: normal; font-family: Menlo;" class=""><span style="font-variant-ligatures: no-common-ligatures" class="">generic-verb := generic_verb_lex_etry &amp; [ STEM &lt; string &gt; ].</span></div><div class=""><span style="font-variant-ligatures: no-common-ligatures" class=""><br class=""></span></div></span></div><div class="">With those changes, I was able to successfully parse using the YY lattice Kristin gave for "baac". &nbsp;I noticed a message about a loopy optional complement rule, so the generic verb lexical type may be a bit too underspecified, e.g. regarding its opinion about its valence (in addition to being shy one ’N’).</div><div class=""><br class=""></div><div class="">I apologize for not getting back to you about this quicker; somehow I missed Olga’s March 23rd email (though I see it in my mailbox now when I go back and look).</div><div class=""><br class=""></div><div class="">Good luck, and let me know if you run into more trouble!</div><div class="">Woodley</div><div class=""><br class=""><div><blockquote type="cite" class=""><div class="">On Mar 30, 2018, at 7:35 PM, Olga Zamaraeva &lt;<a href="mailto:olzama@uw.edu" class="">olzama@uw.edu</a>&gt; wrote:</div><br class="Apple-interchange-newline"><div class=""><div dir="ltr" class="">Here are some relevant types. When I started working on it, I mostly copied things which seemed relevant, over from ERG. (I see now that the #pred identity is present twice).<div class=""><br class=""></div><div class=""><div class=""><div class="">generic_verb_lex_etry := unknown_word &amp; basic-verb-lex &amp;</div><div class="">&nbsp; [ SYNSEM.LKEYS.KEYREL.PRED #pred,</div><div class="">&nbsp; &nbsp; ORTH &lt; "_generic_vb_" &gt;,</div><div class="">&nbsp; &nbsp; TOKENS.+LIST &lt; [ +TNT.+TAGS.FIRST "VB", +PRED #pred ] &gt; ].</div><div class=""><br class=""></div></div><div class="">unknown_word := norm_unknown_word.<br class=""></div><div class=""><br class=""></div><div class=""><div class="">norm_unknown_word := basic_unknown_word &amp;</div><div class="">&nbsp; [ SYNSEM [ LOCAL.CONT.HOOK.LTOP #ltop,</div><div class="">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;LKEYS.KEYREL [ LBL #ltop,</div><div class=""><span style="white-space:pre" class="">                        </span>&nbsp; &nbsp; PRED #pred ] ],</div><div class="">&nbsp; &nbsp; TOKENS.+LIST.FIRST.+PRED #pred ].</div></div><div class=""><br class=""></div><div class=""><div class="">basic_unknown_word := basic_generic_lex_entry.</div><br class="inbox-inbox-Apple-interchange-newline"></div><div class=""><div class="">generic_lex_entry := basic_generic_lex_entry &amp;</div><div class="">&nbsp; [ TOKENS.+LIST &lt; [ +TNT null_tnt ] &gt; ].</div></div><div class=""><br class=""></div><div class=""><div class="">basic_generic_lex_entry := word &amp;</div><div class="">&nbsp; [ SYNSEM.PHON.ONSET unk_onset ].</div></div><div class=""><br class=""></div><div class=""><br class=""><br class=""><div class="gmail_quote"><div dir="ltr" class="">On Fri, Mar 30, 2018 at 7:18 PM Francis Bond &lt;<a href="mailto:bond@ieee.org" class="">bond@ieee.org</a>&gt; wrote:<br class=""></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr" class="">G'day,<div class=""><br class=""></div><div class="">if you run ace in a more verbose mode (I think -vv should be enough) it tells you a bit more about what it is doing with the tokens.</div><div class=""><br class=""></div><div class="">In addition to yy-mode, you must also have some generic lexical entries for unknown words.&nbsp;&nbsp;</div><div class=""><br class=""></div><div class="">You can find some nice examples by Sanghoun in:&nbsp;<a href="https://github.com/delph-in/zhong/blob/master/cmn/gle.tdl" target="_blank" class="">https://github.com/delph-in/zhong/blob/master/cmn/gle.tdl</a></div><div class="">(I think easier to follow than Jacy).</div><div class=""><br class=""></div><div class="">Can you show the lexical type you want to instantiate?</div><div class=""><br class=""></div><div class=""><br class=""></div><div class=""><br class=""></div></div><div class="gmail_extra"></div><div class="gmail_extra"><br class=""><div class="gmail_quote">On Sat, Mar 31, 2018 at 2:36 AM, Kristen Howell <span dir="ltr" class="">&lt;<a href="mailto:kphowell@uw.edu" target="_blank" class="">kphowell@uw.edu</a>&gt;</span> wrote:<br class=""><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr" class="">I'm picking this up for Olga. I've followed the same steps and am encountering the same issue, where I can parse a known word in YY mode, but not an unkown word. I've attached the toy grammar we are using. If anyone has insight on what we are missing, we'd appreciate it. Here is an example, where "baab" is a known word and "baac" is not.<div class=""><br class=""></div><div class=""><div class="">[kphowell@patas ace-0.9.26]$ ./ace -g ../aggregation/analyses/unknown-roots-morphology/data/abz-modified/ace/abz.dat -y</div><div class="">(42, 0, 1, &lt;0:4&gt;, 1, "baab", 0, "null", "VB" 1.0)</div><span class=""><div class="">SENT: (yy mode)</div><div class="">[ LTOP: h0 INDEX: e2 [ e SF: prop-or-ques E.TENSE: tense E.ASPECT: aspect E.MOOD: mood ] RELS: &lt; [ "_strike.pfv_v_rel"&lt;-1:-1&gt; LBL: h1 ARG0: e2 ARG1: x3 [ x SPECI: bool COG-ST: in-foc PNG.PER: person PNG.NUM: number PNG.GEND: gender ] ARG2: x4 [ x SPECI: bool COG-ST: cog-st PNG.PER: person PNG.NUM: number PNG.GEND: gender ] ] &gt; HCONS: &lt; h0 qeq h1 &gt; ICONS: &lt; e2 non-focus x4 e2 non-focus x3 &gt; ] ;&nbsp; (10 decl-head-opt-subj 0.000000 0 1 (9 basic-head-opt-comp 0.000000 0 1 (2 baab 0.000000 0 1 ("baab" 1 "token [ +FORM \"baab\" +FROM \"0\" +TO \"4\" +ID diff-list [ LIST list LAST list ] +TNT tnt [ +TAGS cons [ FIRST \"VB\" REST null ] +PRBS cons [ FIRST \"1.000000\" REST null ] +MAIN tnt_main [ +TAG string +PRB string ] ] +CLASS token_class +TRAIT token_trait [ +UW bool +IT italics +LB bracket_list +RB bracket_list +HD token_head [ +LL ctype [ -CTYPE- string ] +TG string +TI string ] ] +PRED predsort +CARG string +TICK bool ]"))))</div><div class="">NOTE: 1 readings, added 6 / 2 edges to chart (3 fully instantiated, 2 actives used, 2 passives used)&nbsp; &nbsp; RAM: 41k</div><div class=""><br class=""></div><div class=""><br class=""></div></span><div class="">(42, 0, 1, &lt;0:4&gt;, 1, "baac", 0, "null", "VB" 1.0)</div><div class="">NOTE: lexemes do not span position 0 `baac'!</div><span class=""><div class="">NOTE: post reduction gap</div><div class="">SKIP: (yy mode)</div><div class=""><br class=""></div></span><div class="">Best,</div><div class="">Kristen</div></div></div><div class="m_-2376498202399916878HOEnZb"><div class="m_-2376498202399916878h5"><div class="gmail_extra"><br class=""><div class="gmail_quote">On Fri, Mar 23, 2018 at 1:55 PM, Olga Zamaraeva <span dir="ltr" class="">&lt;<a href="mailto:olzama@uw.edu" target="_blank" class="">olzama@uw.edu</a>&gt;</span> wrote:<br class=""><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr" class="">OK, I can run ACE in yy mode and I've attempted to enable&nbsp; token mapping and to map tags to generic entries, but apparently I am missing some step(s).<div class=""><br class=""></div><div class=""><b class="">On an existing word, it works:</b></div><div class=""><br class=""></div><div class=""><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1"><span class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-s1">$cat ../../yy.txt | ace -g abz.dat -y</span></p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1"><span class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-s1">SENT: (yy mode)</span></p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1"><span class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-s1">[ LTOP: h0 INDEX: e2 [ e SF: prop-or-ques E.TENSE: tense E.ASPECT: aspect E.MOOD: mood ] RELS: &lt; [ "_strike.pfv_v_rel"&lt;-1:-1&gt; LBL: h1 ARG0: e2 ARG1: x3 [ x SPECI: bool COG-ST: in-foc PNG.PER: person PNG.NUM: number PNG.GEND: gender ] ARG2: x4 [ x SPECI: bool COG-ST: cog-st PNG.PER: person PNG.NUM: number PNG.GEND: gender ] ] &gt; HCONS: &lt; h0 qeq h1 &gt; ICONS: &lt; e2 non-focus x4 e2 non-focus x3 &gt; ] ;<span class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-Apple-converted-space">&nbsp; </span>(10 decl-head-opt-subj 0.000000 0 1 (9 basic-head-opt-comp 0.000000 0 1 (2 baab 0.000000 0 1 ("baab" 1 "token [ +FORM \"baab\" +FROM \"0\" +TO \"4\" +ID diff-list [ LIST list LAST list ] <b class="">+TNT tnt [ +TAGS cons [ FIRST \"VB\" REST null ]</b> +PRBS cons [ FIRST \"1.000000\" REST null ] +MAIN tnt_main [ +TAG string +PRB string ] ] +CLASS token_class +TRAIT token_trait [ +UW bool +IT italics +LB bracket_list +RB bracket_list +HD token_head [ +LL ctype [ -CTYPE- string ] +TG string +TI string ] ] +PRED predsort +CARG string +TICK bool ]"))))</span></p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1"><span class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-s1">NOTE: 1 readings, added 6 / 2 edges to chart (3 fully instantiated, 2 actives used, 2 passives used)<span class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-Apple-tab-span">        </span>RAM: 41k</span></p><div class=""><b class="">But on an unknown word it does not still:</b></div><div class=""><br class=""></div><div class="">&nbsp;ace Murka$ cat ../../yy.txt | ace -g abz.dat -y</div><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1"><span class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-s1">NOTE: lexemes do not span position 0 `baabb'!</span></p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1"><span class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-s1">NOTE: post reduction gap</span></p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1"><span class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-s1">SKIP: (yy mode)</span></p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1"><b class="">Does anyone have an idea what I have likely failed to define/enable?</b></p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1"><b class="">I've defined token paths like in the ERG, because that's where I copied other types from:</b></p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1">token-mapping := enabled.</p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1">lexicon-tokens-path := TOKENS +LIST.</p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1">lexicon-last-token-path := TOKENS +LAST.</p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1">token-type<span style="white-space:pre-wrap" class="">                        </span>:= token.</p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1">token-form-path&nbsp; &nbsp; &nbsp;:= +FORM.&nbsp; &nbsp; &nbsp; &nbsp;; [required] string for lexical lookup</p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1">token-id-path&nbsp; &nbsp; &nbsp; &nbsp;:= +ID.&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;; [optional] list of external ids</p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1">token-from-path&nbsp; &nbsp; &nbsp;:= +FROM.&nbsp; &nbsp; &nbsp; &nbsp;; [optional] surface start position</p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1">token-to-path&nbsp; &nbsp; &nbsp; &nbsp;:= +TO.&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;; [optional] surface end position</p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1">token-postags-path&nbsp; := +TNT +TAGS.&nbsp; ; [optional] list of POS tags</p><p class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833inbox-inbox-p1">token-posprobs-path := +TNT +PRBS.&nbsp; ; [optional] list of POS probabilities</p></div><div class=""><b class="">Thank you,</b></div><div class=""><b class="">Olga</b></div></div><div class="m_-2376498202399916878m_8786428506328098377HOEnZb"><div class="m_-2376498202399916878m_8786428506328098377h5"><br class=""><div class="gmail_quote"><div dir="ltr" class="">On Fri, Mar 23, 2018 at 10:38 AM Olga Zamaraeva &lt;<a href="mailto:olzama@uw.edu" target="_blank" class="">olzama@uw.edu</a>&gt; wrote:<br class=""></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr" class="">Thanks very much, Paul, Woodley, and Michael. Michael, thanks especially for the detailed explanation!<div class=""><br class=""></div><div class="">I did not notice that YY mode has a field for a POS tag. I will try that then.</div><div class=""><br class=""></div><div class="">Best,</div><div class="">Olga</div></div><br class=""><div class="gmail_quote"><div dir="ltr" class="">On Thu, Mar 22, 2018 at 4:11 PM Michael Wayne Goodman &lt;<a href="mailto:goodmami@uw.edu" target="_blank" class="">goodmami@uw.edu</a>&gt; wrote:<br class=""></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr" class=""><div class=""><div class=""><div class=""><div class=""><div class=""><div class="">Following Woodley's suggestion, for YY-mode I can point you to a few things.<br class=""><br class=""></div>In Jacy, we use POS tags from an external morphological analyzer (previously Chasen; recently MeCab). We have a script that takes the output of MeCab and transforms it into the YY format. Note the definition of the pos_info variable---it holds POS data that is
 slightly more complex than a simple, e.g., NNS or VBG tag.<br class=""><br class="">&nbsp; &nbsp; <a href="https://github.com/delph-in/jacy/blob/develop/utils/jpn2yy" target="_blank" class="">https://github.com/delph-in/jacy/blob/develop/utils/jpn2yy</a><br class=""><br class="">Then see gle.tdl in Jacy, which maps the POS "tags" to generic lexical entries:<br class=""><br class="">&nbsp; &nbsp; <a href="https://github.com/delph-in/jacy/blob/develop/gle.tdl" target="_blank" class="">https://github.com/delph-in/jacy/blob/develop/gle.tdl</a>.<br class=""><br class="">For ACE (and presumably other processors) you might also need to define paths to the token info:<br class=""><br class="">&nbsp;&nbsp;&nbsp; <a href="https://github.com/delph-in/jacy/blob/develop/ace/config.tdl#L143-L151" target="_blank" class="">https://github.com/delph-in/jacy/blob/develop/ace/config.tdl#L143-L151</a><br class=""></div><br class=""></div>When you call ACE you'll need to tell it to expect YY input. I think it's the -y option. There might be some other pieces to this that Woodley or Francis can probably fill in for you. In my experiments, YY mode did help a bit for getting parses where the standard machinery for unknowns failed.<br class=""></div><br class=""></div>If you're working in Python, then PyDelphin's 'tokens' module can help with constructing YY input. This section of the relevant unit tests might be informative:<br class=""><br class="">&nbsp; &nbsp; <a href="https://github.com/delph-in/pydelphin/blob/develop/tests/tokens_test.py#L40-L59" target="_blank" class="">https://github.com/delph-in/pydelphin/blob/develop/tests/tokens_test.py#L40-L59</a><br class=""></div></div><div class="gmail_extra"></div><div class="gmail_extra"><br class=""><div class="gmail_quote">On Thu, Mar 22, 2018 at 3:40 PM, Woodley Packard <span dir="ltr" class="">&lt;<a href="mailto:sweaglesw@sweaglesw.org" target="_blank" class="">sweaglesw@sweaglesw.org</a>&gt;</span> wrote:<br class=""><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="auto" class=""><div class=""></div><div class="">Hi Olga,</div><div class=""><br class=""></div><div class="">Since you are interested primarily in a demonstration rather than a real world system from what I understand, why not specify the POS tags as part of the input, using YY mode?</div><span class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833m_-2348585205083705892m_6731330848249017968HOEnZb"><font color="#888888" class=""><div class=""><br class=""></div><div class="">Woodley</div></font></span><div class=""><div class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833m_-2348585205083705892m_6731330848249017968h5"><div class=""><br class="">On Mar 22, 2018, at 11:42 AM, Olga Zamaraeva &lt;<a href="mailto:olzama@uw.edu" target="_blank" class="">olzama@uw.edu</a>&gt; wrote:<br class=""><br class=""></div><blockquote type="cite" class=""><div class=""><div dir="ltr" class="">Dear developers!<div class=""><div class=""><br class=""></div><div class="">I am looking into the problem of handling unknown roots with LKB and ACE in a situation where we want to first be able to analyze the word morphologically (apply lexical rules).&nbsp;</div><div class=""><br class=""></div><div class="">I had already sent an email about&nbsp;that a year ago, and Francis and I actually sat down and went through the process of constructing a minimal example which showed that there was a problem of some sort preventing us from analyzing the word morphologically and using the unknown word handling machinery at the same time.</div><div class=""><br class=""></div><div class="">Alas, I cannot recover any record of this. It is possible that we did that on Francis's computer,...</div><div class=""><br class=""></div><div class="">Anyway, I want to reconstruct this minimal example one more time, this time hopefully understanding more and producing some actual documentation.</div><div class=""><br class=""></div><div class="">I would like to start from recreating what e.g. the ERG does: treating the words as full-form, relying on a POS tag which maps the word to a specific unknown_type.</div><div class=""><br class=""></div><div class="">I have a small grammar to which I added what I was able to detect as relevant in the ERG (generic lexical entries, unknown onset etc). I also included mtr.tdl and I included it into the script.</div><div class=""><br class=""></div><div class="">Next thing I need to understand (I think) is what does it actually mean to "mock the POS tagger". How do I make the system aware of that information?&nbsp;</div></div><div class=""><br class=""></div><div class="">I can see that the tags can be mapped to the generic lexical entries as described in <a href="http://moin.delph-in.net/PetInput" target="_blank" class="">http://moin.delph-in.net/PetInput</a>. But how do I get the tags in the first place? Suppose I just want to consider everything the same POS, for starters.&nbsp;</div><div class=""><br class=""></div><div class="">Thank you!</div><div class="">Olga</div></div>
</div></blockquote></div></div></div></blockquote></div><br class=""><br clear="all" class=""><br class=""></div><div class="gmail_extra">-- <br class=""><div class="m_-2376498202399916878m_8786428506328098377m_-5241082563590051833m_-2348585205083705892m_6731330848249017968gmail_signature" data-smartmail="gmail_signature"><div dir="ltr" class="">Michael Wayne Goodman<div class="">Ph.D. Candidate, UW Linguistics</div></div></div>
</div></blockquote></div></blockquote></div>
</div></div></blockquote></div><br class=""></div>
</div></div></blockquote></div><br class=""><br clear="all" class=""><div class=""><br class=""></div></div><div class="gmail_extra">-- <br class=""><div class="m_-2376498202399916878gmail_signature" data-smartmail="gmail_signature">Francis Bond &lt;<a href="http://www3.ntu.edu.sg/home/fcbond/" target="_blank" class="">http://www3.ntu.edu.sg/home/fcbond/</a>&gt;<br class="">Division of Linguistics and Multilingual Studies<br class="">Nanyang Technological University<br class=""></div>
</div></blockquote></div></div></div></div>
</div></blockquote></div><br class=""></div></body></html>