<p dir="ltr">there&#39;s some documentation on initial and internal tokenization on the wiki:</p>
<p dir="ltr"><a href="http://moin.delph-in.net/ErgTokenization">http://moin.delph-in.net/ErgTokenization</a></p>
<p dir="ltr">adding to the comments by woodley, the token feature structures recorded with each derivation also contain a list of (initial) token identifiers, and both initial and internal tokens are stored in the profiles as well as in the exports.  hence, relating EPs to sets of corresponding initial tokens should be relatively straightforward.</p>

<p dir="ltr">the one reusable tool to post-process ERG exports into PTB-style (aka initial) tokenization is the DTM converter by angelina.  i believe trying DM bi-lexical dependency graphs (i.e. what we used in the SemEval 2014 context) for SMT could be very interesting, and i would be happy to assist.</p>

<p dir="ltr">all best, oe</p>
<div class="gmail_quote">On Apr 24, 2014 8:44 PM, &quot;Ann Copestake&quot; &lt;<a href="mailto:Ann.Copestake@cl.cam.ac.uk">Ann.Copestake@cl.cam.ac.uk</a>&gt; wrote:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
Hi All,<br>
<br>
So we&#39;re (myself and Matic) looking at a somewhat related issue, which is<br>
mapping the MRS to tokens in an SMT system - more details about the MRS/SMT<br>
approach soonish.  The issue is that the ERG tokenisation doesn&#39;t correspond<br>
to the sort of tokenisation the SMT system would expect - we can use different<br>
tokenisers in the SMT approach, but the attachment of punctuation to the token<br>
would be problematic if we used the ERG notion of a token.  The tentative<br>
solution is to map the MRS EPs to the TNT tokens (or whatever the dumb<br>
tokeniser is).  We&#39;d then end up with a tfrom, tto annotation of some<br>
description.<br>
<br>
a) has anyone done this with the Wikiwoods data?  is it doable?<br>
<br>
b) are there cases where one TNT token corresponds to two ERG tokens?<br>
<br>
Sorry if this is a bit cryptic - I&#39;m in the process of downloading<br>
1212/export0.tar and will give a specific example when I&#39;ve done that if<br>
that&#39;s helpful.<br>
<br>
Ann<br>
<br>
<br>
<br>
<br>
<br>
</blockquote></div>