<div dir="ltr">Thanks.&nbsp; I managed to get SMAF working in PET with the example sentence on the Wiki, but for the time being I&#39;m just looking for the easiest way to get robustly from text to RMRS, so I&#39;ll take a look at HoG.<br>
<br><div class="gmail_quote">On Wed, Jul 30, 2008 at 8:28 AM, R. Bergmair <span dir="ltr">&lt;<a href="mailto:rbergmair@acm.org">rbergmair@acm.org</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div class="Ih2E3d">On Tue, 29 Jul 2008, Bill McNeill (UW) wrote:<br>
<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
no lexicon entries for:<br>
 &nbsp; &quot;faq&quot; [NP1 ]<br>
 &nbsp; &quot;.&quot; [. ]<br>
</blockquote>
<br></div>
In the ERG directory there is a file called pet/common.set,<br>
which contains a setting &quot;posmapping&quot;. Make sure that there<br>
is an entry mapping &quot;NP1&quot; to a generic type, for example<br>
$genericname. This is commented out in the default<br>
configuration.<br>
<br>
You generally might want to look into using SMAF as an<br>
input format. I&#39;m not sure what the policy of the PET<br>
maintainers is, regarding the YY input format. I<br>
understand SMAF is supposed to be the &quot;new thing&quot; :)<br>
<br>
Concerning the &quot;.&quot;, this might be because the example on<br>
YY input dates from what Dan calls the &quot;pre-punctuation era&quot; :)<br>
First, the ERG used to strip out punctuation in a<br>
preprocessing step, so stuff could be tokenized like<br>
this: |Incidentally|,|Xavier|is|tall|.|<br>
Now it should be like this: |Incidentally,|Xavier|is|tall.|<br>
<br>
Generally, part of the problem of giving preprocessed input<br>
to PET is that you have to know the tokenization expected<br>
by the ERG, and you have to have tags to correspond to that<br>
tokenization, i.e. what you want to do is to run the FSPP<br>
preprocessor in a separate step and use a POS tagger trained<br>
on that tokenization, or at least you will have to map stuff<br>
to the right tokenization.<br>
<br>
An alternative is to use Yi Zhang&#39;s type prediction code.<br>
You will need a specifically instrumented version of the ERG<br>
for this. This is all kind of inofficial and experimental,<br>
though. You&#39;ll find a grammar at<br>
<br>
 &nbsp;<a href="http://www.coli.uni-saarland.de/%7Eyzhang/files/erg-cvs20080417.tar.bz2" target="_blank">http://www.coli.uni-saarland.de/~yzhang/files/erg-cvs20080417.tar.bz2</a><br>
<br>
and you can then use the undocumented &quot;-predict-les&quot; option<br>
to cheap.<br>
<br>
If you need to have control over such preprocessing steps,<br>
playing around with this sort of stuff is fair enough, but<br>
if all you&#39;re trying to do is to robustly parse text and<br>
obtain RMRSes, you probably want to look into using HoG as<br>
a middleware to handle these things for you. If you&#39;re in<br>
the mood for experimenting with some undocumented code, I<br>
can also send you my &quot;PyRMRS&quot; python library which can also<br>
handle this stuff.<br>
<br>
<br>
regards,<br>
<br>
Richard<br>
</blockquote></div><br><br clear="all"><br>-- <br>Bill McNeill<br><a href="http://staff.washington.edu/billmcn/index.shtml">http://staff.washington.edu/billmcn/index.shtml</a><br>
</div>