<div dir="ltr">Hi all,<div><br></div><div>I&#39;m trying to export DELPH-IN derivation trees for use in the Fangorn treebank querying tool (which uses PTB style trees for importing) and have run into a hiccup extracting the string to use for the leaves of the trees. Fangorn does not support storing the original input string alongside the derivation, with the string used for displaying the original sentence being reconstructed by concatenating the leaves of the tree together.</div>
<div><br></div><div>I&#39;ve been populating the leaves of the exported PTB tree by extracting the relevant slice of the i-input string using the +FROM +TO offsets in the token information (if token mapping was used). One case I&#39;ve found where this doesn&#39;t work so well (and there may be more), is where characters which have been stripped by REPP occur within a token, so these characters are then included in the slice. Wikipedia markup, for instance, results in these artefacts:</div>
<div><br></div><div>&quot;Artificial intelligence has successfully been used in a wide range of fields including medical diagnosis]], stock trading]], robot control]], law]], scientific discovery and toys.&quot;</div><div>
<br></div><div>I also tried using the value of the +FORM feature, but it seems that this doesn&#39;t always preserve the casing of the original input string. </div><div><br></div><div>Does anyone have any ideas for combating this problem?</div>
<div><br></div><div>Ned<br clear="all"><div><br></div>-- <br><a href="http://nedned.net" target="_blank">nedned.net</a>
</div></div>